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本书介绍了指数随机图模型的基本概念，通过案例解释了为什么要使用指数 
随机图模型,并向读者展现了如何在研究中运用基本的指数随机图模型进行分析。 

指数随机图模型是一种针对社会网络结构进行建模的统计方法。近年来，随 
着统计软件的不断改进，已经有一些社会科学家开始使用指数随机图模型统计工 
具进行研究。然而，目前尚缺乏厂本精炼的模型使用指南。本书通过公共健康领 
域的真实案例以及详细指导读者使用 P 体斗妳处订 ctatnot ^描泣—空白。 

主要特点 

•指数随机图模型是一种网络统计掖 . 

• 本书采用了公共健康领域的真实案例，并详细讲解了分析流程 
• 本书提供了指数随机图建模的完整 R 语言代码，用户可以方便地重复完整的 
指数随机图建模过程 


您可以通过如下方式联系到我们: 
邮箱: hibooks @ hibooks.cn 
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出版说明 


由香港科技大学社会科学部吴晓刚教授主编的“格致方 
法 • 定量研究系列”丛书，精选了世界著名的 SA (; E 出版社 
定量社会科学研究丛书.翻译成中文，起初集结成八册•于 
2011年出版这套丛书自出版以来•受到广大读者特別是年 
轻一代社会科学工作者的热烈欢迎。为了给广大读者提供 
史多的方便和选择•该丛书经过修汀和校正，于2012年以单 
行本的形式 再次出 版发行.共37本。我们衷心感谢广大读 
者的支持和建议。 • 

随着与 SAGE 出版社合作的进一步深化.我们又从丛书 
中精选了三 I - 多个品种•译成中文•以飨读者。丛书新增品 
种涵證了史多的定量研究方法。我们希望.本丛朽单行本的 
继续出版能为推动国内社会科学定量研究的教学和研究作 
出一点贡献。 



总序 


2003年，我赴港工作，在香港科技大学社会科学部教授 
研究生的两门核心定量方法课程。香港科技大学社会科学 
部自创建以来，非常重视社会科学研究方法论的训练。我幵 
设的第一 H 课“社会科学里的统计学 ” （Statistics for Social 
Science ) 为所有研究型硕士生和博士生的必修课，而第二门 
课“社会科学中的定量分析”为博士生的必修课（事实上，大 
部分硕士生在修完第一门课后都会继续选修第二门课）。我 
在讲授这两门课的时候，根据社会科学研究生的数理基础比 
较薄弱的特点，尽量避免复杂的数学公式推导•而用具体的 
例子•结合语言和图形，帮助学生理解统计的基本概念和模 
型。课程的重点放在如何应用定量分析模型研究社会实际 
问题上，即社会研究者主要为定量统计方法的“消费者”而非 
“生产者”。作为“消费者”，学完这些课程后，我们一方面能 
够读懂、欣赏和评价别人在同行评议的刊物上发表的定量研 
究的 文章； 另一方面，也能在自己的研究中运用这些成熟的 
方法论技术。 

上述两门课的内容.尽管在线性回归模型的内容上有少 
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量重复.但各有侧重。“社会科学里的统计学”从介绍最基本 
的社会研究 方法论 和统 i 十学原理开始.到多元线性回归模型 
结束.内容涵盖了描述性统计的基本方法、统计推论的原理、 
假设检验、列联表分析、方差和协方差分析、简哏线性回归模 
型、多元线性回归模型.以及线性回归模型的假设和模型诊 
断。“社会科学中的定靖分析”则介绍在经典线性回归模型 
的假设不成立的情况下的一些模嗤和方法，将電点放在因变 
量为定类数据的分析模型上，包括两分类的 logistic 回归模 
型、多分类 logistic 回归模型、定序 logistic 回归模型、条件 
logistic 回归模型、多维列联表的对数线性和对数乘积模型、 
有关删节数据的模型、纵贯数据的分析模型.包括追踪研究 
和事件史的分析方法。这些模型在社会科学研究中有着更 
加广泛的应用。 

修读过这些课程的香港科技大学的研究生，一直鼓励和 
支持我将两门课的讲稿结集出版.并帮助我将原来的英文课 
程讲稿译成了中文。但是•由于种种原因•这两本书拖了多 
年还没有完成。世界著名的出版社 SA (； E 的“定量社会科学 
研究”丛书闻名遐迩.每本书都写得通俗易懂•与我的教学理 
念是相通的。当格致出版社向我提出从这套丛书中精选一 
批翻译，以獪中文读者时,我非常支持这个想法，因为这从某 
种程度上弥补了我的教科书未能出版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种 
语言的精准把握能力，还要有对实质内容有较深的理解能 
力，而这套丛书涵盖的又恰恰是社会科学中技术性非常强的 
内容，只有语言能力是远远不能胜任的。在短短的一年时间 
里，我们组织了来自中国内地及香港、台湾地区的二十几位 


研究生参与了这项工程.他们当时大部分是香港科技大学的 
硕士和博士研究生，受过严格的社会科学统汁方法的训练 • 
也有来自美国等地对定量研究感兴趣的溥士研究生。他们 
是香港科技大学社会科学部博七研究生蒋勤、李骏、盛智明、 
叶华、张彔妮、郑冰岛，硕七研究生贺光烨、李兰、林毓玲 、 ft 
东亮、辛济云、於嘉、余珊珊，应 ffl 社会经济研究中心研究员 
李 俊秀； 香港大学教#学院博士研究生洪岩璧:北京大学社 
会学系博士研究生李丁、赵 亮记； 中国人民大学人口学系 i 并 
师巫锡炜；中国台湾“中央”研究院社会学所助理研究员林宗 
弘；南京师范大学心理学系副教授 陈陈； 美国北卡罗来纳大 
学教堂山分校社会学系博士候选人姜念涛:美国加州大学洛 
杉矶分校社会学系博士研究生宋曦；哈佛大学社会学系博士 
研究生郭茂灿和周韵。 • 

参与这项工作的许多译者目前都已经毕业•大多成为中 
阐内地以及 t 港、台湾等地区高校和研究机构定量社会科学 
方法教学和研究的骨干。不少译者反映•翻译工作本身也是 
他们学习相关定 ffi 方法的有效途径。鉴于此.当格致岀版社 
和 SAGE 出版社决定在“格致方法 • 定量研究系列”丛书中 
推出另外一批新品种时•香港科技大学社会科学部的研究生 
仍然是主要力量。特别值得一提的是，香港科技大学应用社 
会经济研究中心与上海大学社会学院自2012年夏季幵始 • 
在上海（夏季）和广州南沙（冬，)联合举办《应用社会科学研 
究方法研修班》，至今已经成功举办三届。研修课程设计体 
现“化整为零、循序渐进、中文教学、学以致用”的方针•吸引 
T 一大批有志于从事定量社会科学研究的博士生和青年学 
荇。他们中的不少人也参与了翻译和校对的工作。他们在 
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繁忙的学习和研究之余，历经近两年的时间，完成了三十多 
本新书的翻译任务•使得“格致方法 • 定量研究系列”丛书更 
加丰富和完善。他 们是： 东南大学社会学系副教授洪岩璧. 
香港科技大学社会科学部博士研究生贺光烨、李忠路、王佳、 
王彦蓉、许多多•硕士研究生范新光、缪佳、武玲蔚、臧晓露、 
曾东林•原硕士研究生李兰，密歇根大学社会学系博士研究 
生王骁•纽约大学社会学系博士研究生温芳琪•牛津大学社 
会学系研究生周穆之，上海大学社会学院博士研究生陈 
伟等。 * 

陈伟、范新光、贺光烨、洪岩璧、李忠路、缪佳、王佳、武玲 
蔚、许多多、曾东林、周穆之，以及香港科技大学社会科学部 
硕士研究生陈佳莹，上海大学社会学院硕士研究生梁海样还 
协助主编做了大量的审校工作。格致出版社编辑高璇不遗 
余力地推动本丛书的继续岀版，并且在这个过程中表现出极 
大的耐心和高度的专业精神。对他们付出的劳动，我在此致 
以诚挚的谢意。当然，每本书因本身内容和译者的行文风格 
有所差异，校对未免挂一漏万，术语的标准澤法方面还有很 
大的改迸空间。我们欢迎广大读者提出建设性的批评和建 
议，以便再版时修订。 

我们希望本丛书的持续岀版，能为进一步提升国内社会 
科学定量教学和研究水平作岀一点贡献。 


吴晓刚 

于香港九龙清水湾 



自20世纪初乔治_齐美尔 (Georg Simmel ) 首次论述社 
会网络相关问题以来 （Simmel 8>. Wolff . 1950) •社会科学家 
对于个体之间、组织之间以及其他实体之间相互关联的网络 
问题一直保持高度的关注(参见例如 Fienb er g _ 2012)。20世 
纪30年代.心理医生雅各布 • 奠雷诺 (Jacob Moreno , 1934 ) 
的工作为社会网络研究奠定了基础•并将此领域命名为“社 
会计量学” ( sodometry )。 在莫雷诺的诸多重要成果中•核心 
成果便是发明了社群图 (suci og ra m ) 方法•通过将个体图形化 
表示为节点，个体之间联系图形化表示为连线的形式4土群 
图方法就能够用来解释社会结构问题。 

在社会网络分析发展的历程中.社群图方 法被证 明是十 
分重要的，原因之一是社群图方法将图论的基础理论引入到 
了社会网络分析中来。图论是一个专门处理由节点（点）以 
及 ttl 连的边(连 线） 所组成的数学分支•其中.网络图既可以 
是有 向的. 即网络中的边通常由从一个节点到另一个节点的 
箭头所表示•从而展现节点之间潜在的彳_对称联系；网络图 
也可以是无向的. it 接用线段来表示网络中的边。大多数研 
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究社会网络的传统方法都是来源于图论的•社会科学中的定 
量研究方法应用系列丛书 (QASS) 中•有一本较早的著作，是 
由诺克和杨 (Knokd Yang, 2008) 撰写的 (( 社会网络分 析》. 
该书就主要是采用这种(传统)方法。 

传统的网络分析方法主要是描述性的•并不采用具有统 
计学意义上的随机变量模$!构建方法。明确提出以网络结 
构为中心建立概率模型的思想可以追溯到20世纪中叶，即 
吉尔伯特、艾多斯以及瑞尼 （Gilbert， 1959； Erdos &• Renyi. 
1959) 解释了网络结构中最为基础的零模型 （mill model) 0 
在零模型中•所有的节点对都是以同等的概率建立连线，无 
论是在有向网络还是无向网络中，简单图模型都是被最广泛 
釆用的模型。 

20年之后，霍兰德和莱因哈特 （Holland & Leindardu 
1981 ) 引人了一种针对有向图的 Gi I hert-Erdos-Renyi 零模型 
的变种。其中，关系形成 （tie formation) 的概率受到个体的 
群集性 (gregariousness , I s " 体对外与他人建立联系的属性）以 
及受欢迎程度 (popularity， 他人与该个体建立联系的属性）的 
影响 a 在此之后不久，1981年•芬傅格和沃瑟曼 （Fienberg &. 
Wasserman, 1981 ) 将霍兰德和莱因哈特的 A 模型改造为对 
数线性模型，对数线性模型是一种为统计学家和社会科学家 
所熟知的模型，这样一来，学者们就可以方便对模型的参数 
进行最大似然估计了。此外，芬博格和沃瑟曼还对仏模型 
进行了扩展，将网络的“互惠性” （reciprocity) 特征纳人到模 
型中来，并以“互惠性”特征作为网络连线概率增强的机 
制——例如，在一个朋友网络中，如果 A 选择 B， 那么， B 选择 
A 的概率就会提升。 


正如詹 宁 • 哈瑞斯 (Jenine Harris ) 在本书中所解释的， 
吉尔伯特等人的零模型、霍兰德和莱因哈特的 A 模型•以及 
芬博格和沃瑟曼 （1981) 的扩展模型都是指数随机图模型 
(exponential random graph models • ERG Ms ) 家族的成员。 
过去 30 年里，指数随机图模型的研究取得了长足的进展，而 
且已经成为了目前社会网络分析中最重要的统汁工具。在 
这个进程中，指数随机图模型不断彰显着自己在展现社会网 
络结构特征分析方面的洞察力，例如对聚类或“聚簇”的 
分析。 /* 

近年来，面对大数据分析所带来的挑战与激励，计算机 
科学家和统计物理学家•与统计学家、社会科学家并肩作战， 
对社会网络分析的发展起到了直接推动作用。源于社会生 
活中的大型网络数据尤为庞大与复杂，如 Facebook 的数据， 
这也促使研究人员必须不断研究更为复杂的网络模型•不断 
改进统计软件的计算能力，以确保研究的模型能够适应大数 
据的环境。哈瑞斯在其书中介绍了由 statnet 团队所研发的 
最先进的网络分析软件 （Hmidcocket al .，2003) •该软件是针 
对 R 的统计计算环境而开发的 （R Core Team , 2013)，是一 
款广泛使用的、免费且开源的统计分析平台。 

本书介绍了如何建立指数随机图模型，并解释了如何在 
实践中使用该模型，詹宁 • 哈瑞斯的工作对于釆用社会网络 
分析的社会学家而言十分重要。我希望她的这本著作将会 
有较广泛的读者群，同时•期待该书能够对社会科学中社会 
网络分析质量的提升产生实质性的影响。 


约翰. 福克斯 (John Fox ) 
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近30年来，经验社会研究被抽样调查方法所主导。 
但正如人们经常指出的那样•通过对个体进行随机抽样 
的调查方法成为了一台社会学研究的绞肉机，它把个体 
从其所在的社会情境中剥离开来，使得研究过程中任何 
个体之间不存在任何关系。这就有点像一个生物学家 
让他们的实验动物首先经过一台绞肉机的处理，然后， 
以百计的细胞为观测对象，通过显微镜对（实验动物）进 
行观察。这样，解剖学和生理学用不着了，结构与功能 

消失了，唯一剩下的只有细胞生物学 . 如果我们的目 

标是去理解人类的行为而不是简单地记录这些行为，那 
么，我们希望知道诸如主要群体，邻居关系、组织结构、 
社会圈子、社区关系等 问题； 还包括交流、沟通、角色期 
望以及社会控制等问题。 

-巴顿 （ Barton )， 1968, 

援引自弗里曼 ( Freeman ，2004:1) 


2010年，南亚的一个内陆小国不丹采用了一种用于测量 
国家成就的新措施——国民幸福总值 ( GNH ) 指数•与之前通 
用的评价国家生产力的经济指标不同， GNH 指数侧重于观 
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察国民的福祉，“意在通过改进尚未获得幸福感 （ not - yet - 
hppy ) 人群的生存状况，引导人民和国家走向幸福” （ Ura ， 
Alkire，Zangmo & Wangdi ， 2012)。在科学文献中 *GNH 也 
被称为主观幸福感 （subjective well - being , SWB )， 通过总结 
数十年对于幸福问题的研究经验， GNH 指数初步形成为一 
个包含9大领域、13类指标以及124项变量的综合指标体 
系。 GNH 指数所涉变量的范围覆盖了整个生态模型，从个 
体层次人口统计指标，如年龄与教育程度，到中观层次对家 
庭紧密度、社区融入度的测量，甚至包括对自然和经济环境 
的认知等。然而，在 GNH 指数所包含的若干测量指标中却 
遗漏了对特定社会关系的测量。之前的研究发 现：相 邻个体 
之间的关系数量、关系属性以及关系之间的同质性（其中， 
同质性是指人们更愿意与其相似的人群进行联系的行为准 
则）对于个体知识、态度以及交往活动都起到了重要的作用 
( McPherson ， Smith-Lovin &. Cook , 2001 )，这种作用也适用 
于针对幸福感问题的研究 （ Bun ， 1987； Myers Diener ， 
1995)。例如，最近对于幸福感问题的研究就发现，至少在 

我们的在线网络中，感觉幸福的人总是愿意与那些同样感 
觉到幸福的人交朋友 （ Bliss ， Kloumann , Harris , Danforth & 
Dodds , 2012； BolLen , ( ioncalves , Ruan &. Mao ，2011)。 
图 1.1 显示了一个在线交友网络，其中的朋友关系以及他们 
是否感觉到幸福的状态被标记出来，感觉到幸福的人们被 
标注为具有较高的主观幸福感，而感觉不幸福的人则具有 
较低的主观幸福感。 
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籲低主观幸福感 o 高主观幸福感 
资料来源：改编自 Bollen ， Goncalves. Ruan Mao(2011 )。 

图 U 在线交友关系网络以及人们对幸福的感受 

因此•想要理解幸福感并识别出那些尚未获得幸福感的 
人群，就需要从个体社会网络的视角对幸福产生的模式进行 
认知。然而.促使人们相互联系的纽带不仅仅只涉及幸福感 
本身，还涉及人们对诸如吸烟行为、就业前景、寿命长短、药 
物使用、体育运动、书籍选择、健康观念等事物的认知与态 
度，以及对行政权力、科学发展、疾病传播以及难以计数的与 
人类生存相关问题的理解 （Ennctt Bauman ， 1993; 
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Granovetter , 1983； Hall Valente , 2007； Harris , Luke , 
Zuckerman Shelton • 2009 ； Harris . Ca rot hers , Wald , 
Shelton Leischow , 2012； Krebs , 2000； Luke Harris , 
2007； Seeman , Kaplan , Knudsen , Cohen Guralnik , 1987; 
Valente . 2010； Valente Saba ，1998； Valente Vlahov ， 
2001 ； Voorhees et al ., 2005) 0 社会科学家对上述行为表现 
出的特征产生了浓厚的兴趣•然而•传统的社会科学所使用 
的定量分析方法并没有将关系信息纳入到定量分析范畴中 
来。相反•传统的定量研究方法是依赖于一项关键的（也是 
必须的)基础假定条 件：即 研究中的个体是不相关或彼此相 
互独立的，基于此种假设条件的研究方法可能会导致分析结 
果遗失许多重要信息。 

例如，1997年，北卡罗来纳州吉尔福德县暴发了梅毒传 
播事件(参见图1.2,上半部分）。标准的流行病监测技术是 
通过追踪传染疾病案例数量的变化来对梅毒传播范围进行 
监测的。通过对流行病数据的进一步观察发现 :在受 感染人 
群中，年轻人是最多的，而且大多数人还处于青少年阶段。 
一旦确认了受感染人群的这项特征.当地卫生部门的性传播 
疾病项目工作人员就决定釆用网络分析方法来对传染病暴 
发进行跟踪与研究。该方法不仅对受感染者进行了问卷调 
查•还凋查了可能与受感染者有关系的人，因为这些人也可 
能会参与到传染病传播过程中来，尤论他 j 是否被感染。 

通过上述网络分析方法，工作人员发 现:在 当地的99个 
年轻人群体之间存在一个复杂的性关系网络，而其中有10 
名年轻人为受感染者。如图 1.2 下半部分的网络图所示，99 
个年轻人山方框来表示•他们之间的性关系用连线表示，较 
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1986 1988 1990 1992 1994 1996 

1=1吉尔福德县的梅毒受感染人数 
—北卡罗来纳州的梅 毒受感 染人数 



图上半部分展示的是一个传统的流行病监测方法的分析结论(疾病控 
制与防治中心， 1998): 图下半部分显示了网络方法的分析结论 9 两种方法 
都旨在理解1997年在北卡罗来纳州吉尔福德县暴发的梅毒事件 
(Rothenberg et al . ，1998) 0 











第 1 眘网络分析方法的希望与挑战 


7 


粗的线条表示已经查明的梅毒传播途径。从网络图中可以 
清楚地了解到，大多数的年轻人都具有多个性伙伴•这一特点 
促使疾病迅速蔓延。正是由于网络存在这样的关系模式，无 
论他们是否受到感染，这些年轻人都有33%的机会通过性关 
系接触到网络中的其他受感染者。可见•在识别受传染病威 
胁人群的范围、危险程度，以及关系模式（促使梅毒在社区的 
个体间、群体间进行迅速传播）方面，最初的分析方法——传 
染病暴发初期采用的非关系型的方法是不充分的 （Rothenberg 
et al . , 1998)。 

在面对诸如在线交友过程中幸福感问题以及监测传染 
病暴发问题时，非传统方法正在挑战那些在社会科学中曾 
被广泛接受的、传统的数据采集方法与分析技术 （Freemaru 
2004)。尽管目前已经存在大量呼声要求将情境方法（例如 
多层次建模、空间统计和网络分析）整合到从社区心理学到 
信息通讯等多个领域 ( Green ， 2006 ； Hirsch，Levine 
Miller . 2007 ； Leisrhow et al ., 2008 ； Luke , 2005 ； Luke 
Stamatakis . 2012 ； Shumate Palazzolo , 2010)， 但社会科 
学中的大多数研究仍然依赖于标准的研究方法和工具•而 
这些方法和工具均以观察对象的独立性假设为前提 （Luke 
Stamatakis , 2012)。为了符合这种假定条件 ，一 个典型 
研究通常需要获得一个随机独立样本，而且采样过程必须 
明确是针对无关联个体进行的独立采样。为了符合这种假 
定所期望的独立性效果，最理想的样本要求个体之间一定 
不是邻里关系或性伴侣关系，最好也不要共同出入一个教 
堂,甚至要求最好不要在同一家餐厅用餐等。和非参数统 
计方法一样，大量的广义线性模型家族也依赖于这种假定。 
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当然，在理解人类身心健康、社会正义、经济、政治以及人类 
存在的许多方面，在这些被广泛采用的传统方法也是有 
益的。 

然而，正如巴顿 （ Banon ) 明确指出的，独立性假定要求将 
个体信息从其所依附的情境去除或"剥离”开来•而这些情景 
因素乂被证明对于理解行为和效果具有十分重要的意义。 
传统的标准方法的最大特征在于•对个体信息进行“去情境 
化” ( de - contextualization ) 处理•这一特征极大地限制了待检 
验假设的选择范围及其所蕴含背景知识的选择范围； N 样 
地，这种将个体信息与其所在的家庭、职业及邻里关系进行 
割裂的处理方法•也会使得我们无法触及我们真正希望去理 
解的行为及特征的本源。同理 • 如果将一个组织与其成员以 
及该组织之上更大的系统割裂开来，也必将限制我们充分地 
理解组织的能力及作用 ( Beatty . Harris &. Barnes . 2010; 
Harris ♦ Luke , Burke Mueller . 2008； Luke et al . ♦ 2010) 0 

指数随机图模型 （ ERC , M ) 是一种专门针对关系数据的 
统计方法，本书的目的就在于为指数随机图建模提供一种相 
对非技术性的介绍。正如在图 U 和图 1.2 中所展示的那些 
工具一样，指数随机图模型是一种用于识別并检验关系模式 
的工具，它能够识别岀观测网络中存在哪些关系模式、网络 
成员或者社会力量所具有的哪些特征是具有解释力的。指 
数随机图模型是一种独特 a 有效的网络统计工具，因为它能 
够通过类似逻辑回归 （logistic regression ) 的统计形式来解释 
其所观测到的网络结构特征。确切地说，指数随机图模型可 
以被用于理解一个观测网络的形成是源于网络成员某种属 
性特征（如年龄以及就业情况等特征）还是源于网络形成过 
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程中的关系模型。 

到目前为止•大多数关于指数随机图模型的文章都是由 
统计学家撰写的 • 而对于应用社会科学家 而言 •这些文章不 
太容易理解。为了填补这一空甶，本书的目标阅读群体是那 
些从事社会科学领域研究的教师、科研人员以及研究生。我 
们希望读者通过阅读本书.能够建立、评价并解释一个复杂 
的指数随机图模型。 

本章余下的部分包含一个简要的历史介绍以及对于重 
要网络概念及词汇的概括。第2章则概要式地介绍了指数 
随机 m 模型的历史发展、理论、形式以及特征。具体的指数 
随机图建模过程将会在第3章和第4章中展示。其中.第3 
章展示了一个复杂的指数随机图模型从始至终的构建过程， 
该章包括了探索性网络分析、模型估汁、解释、诊断以及拟合 
优度评价等方法。第1章将进一步讨论指数随机图模型的 
模型佔计和解释、针对有向网络的模型拟合问题，以及利用 
二元组协变量和其他网络作为模型的自变量的问题。最终， 
第5章概括式地列举了全书中所采用的//法以及相关的外 
部学习资源。需要注意的是•本章中的叙述并不是对于社会 
网络分析 (social network analysis ， SNA ) 的一个介绍，虽然本 

15后续的部分也涵盖了社会网络分析的历史以及术语等相 
关内容•时且在第3章的开始部分（作为网络模型构建过程 
的一部分)包含了一些基础网络分析和可视化工具介绍•但 
这两点是需要区分开来的。 
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第1节 I 历史与概念 


尽管在18世纪乃至更早期已经有一些对于社会关系和 
社会网络的描述 （ Buchanan • 2002； Caul kins , 1981； F reeman . 
1996； Luke Harris ，2007)， 但约 瑟夫. 莫雷诺于1934年出 
版的著作《谁将生存?》 (1953 后洱版）被认为是现代社会网络 
分析的开端 ( Freeman ， 1996; Wasserman Faust . 1994 ) 。莫 

雷诺在他的书中描述了一种新的对于关系的表述方法 ：利用 
一系列的点来表示人，利用点之间的连线来表示关系。这种 
表示方式被称为社群图.也是最早的社会网络分析工具。自 
莫雷诺的开创性工作之后，社会网络分析经过几代的发展逐 
步兴盛起来 (Wasserman Pattison , 1996) a 与传统的统计方 

法要求观察样本之间彼此独立假定不同，现代的社会网络分 
析具有以下四项主要特征 ( Freeman , 2004, 2011)： 

(1) 它根源于社会行动者之间的关系及在此之上的结构 
性思想； 

(2) 它是以系统的实证数据为基础的； 

(3) 它非常重视关系图形的表象 功能： 

(4) 它依赖于数学或计算模型的使用。 

网络可以由个体、组织、事件、出版论文以及相互连接的 
任何事物构成。学校中的学生以及他们之间的朋友关系可 
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以构成一个网络，与此相仿 •一 个城市的管理者以及他们共 
同所属的理事会之间的关系，或者是一群正在策划发动恐怖 
袭击的恐怖分子之间的关系，都可以构成一个网络。网络不 
仅可以由人构成，例如，图 1.3 中就展示了一个医疗服务网络, 
在该网络中•癌症治疗机构之间通过相互协作为城市中缺医 
少药的病人提供服务。虽然自莫雷诺时代以来网络理论已经 
取得了长足的进展•然而，不难发现•图 1.3 所示网络的可视化 
形式与莫雷诺所绘制社群图具有惊人的相似度。在图 1.3 中, 
每一个圆圈•或者说节点代表了一个组织，而连接两个圆圈之 
间的连线则表示了两个相互联系的组织之间的沟通关系。节 
点的规模显示了该组织在网络中具有联系的数 量:而 节点的 
标签则明确地标明每一个节点所代表的组织名称。 


Baptist. 

Church, 


Hope 
•Lodge 

Pariah 

Family Care Miriam 

Health Center Foundation 


SLU Cancer 
Information Center 




•Christian NE Hospital 
St. Anthony 

Med>cal Center St. Louis 
» Cfisis 

〜 _ I / II/X Cental 


// 

ParaQuad...' 


Medical i 


70® Prostate Cancer 
11 赢 Resource Group 

Louis Cancer 
Breast Institute 


> eople'sA 

Health. 


HH^rd 


Davis 


St. John’s Mercy 
Breast Center 


该网络展示 r 在一个城市环境中.为了救护缺医少药的癌症病人.各医 
疗组织之间是如何进行沟通的 (Harris et al.. 2011), 


图 1.3 
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上述网络中有两个特征是显著的.而且•这两个特征将 
会成为本书后续部分反复提及的内容。首先，网络成员所具 
有的联系并不是均匀分布的。即网络中的机构与其他机构 
建立联系的频次并不是均等的.有些机构仅会联系一家或者 
两三家机构，而有一些机构则会与网络中的其他机构建立广 
泛的联系。其次，居于网络中心位置的一群机构，利用群体 
间业已建立的广泛联系形成了一个紧密联系的聚簇。上述 
两项社会网络的基本结构特征——网络成员所具有的联系 
数量分布以及网络中存在着紧密联系群体，正是网络科学家 
不断努力力求能够更准确解释和表现的网络 特质。 

图 1.3 中简化的网络图形掩盖了潜在数据的复杂性•这 
种复杂性一直阻碍着科学家们采用统计建模的方法，而统计 
建模的方法能对观测网络进行更精确的预测和解释。因此， 
实证网络研究中几乎就回避了使用统计建模的方法 （Humer 
S - Handcock ， 2006; Snijders ， 20】 la ) •并主要采用网络图形 

可视化的视觉检验方法以及描述性统计方法来识别关系模 
式.并对关系特征进行描述 （Shumate Palazzolo ， 2010 ) 0 
这种回避的做法极大限制了研究人员从社会网络分析中获 
得有效分析结论。例如，在梅毒传播网络中（参见图1.2)，基 
于网络的描述性统计分析以及可视化方法都察觉到•受感染 
者之间存在的聚集现象以及高致病概率的性传播模式•与网 
络成员的性别、种族以及药品使用情形之间可能存在关联关 
系。然而，上述方法不具备对这些假设进行检验的能力：这 
些关系模式与随机产生的现象是否不同，而事实上随机属性 
或多或少对于解释高致病概率的性传播模式具有意义，或是 
整体网络的属性（如呈现非均匀状态的关系分布）如何解释 
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网络中心所岀现的性关系聚集现象。 

这种对于统计网络模型采取回避的做法在最近的10到 
20年时间里发生了巨大的变化。统计网络模型出现 r 两个 
分支 (van Duijn Huisman . 201 i ) 。第一个分支关注网络 
中的行动者，而另一个分支则关注网络中的关系。以行动者 
为中心 ( actor - focused ) 的统计网络模型由一系列区分行动者 
群体以及试阁解释或预测行动者属性的模型构成.而以关 
系为中心 (^ focused ) 的分支则是由一系列旨在解释或者预测 
关系形成以及关系模式的模型构成。下面这一部分将描述几 
个统计模型•这些统计模型在两个统计网络模型分支上均有 
所体现。当然•这不是一个详尽的列表，还有一鸣面向具体情 
形的网络模型没有涵盖进来 (Scott Carrington . 2011)。 

在以行动者为中心的分支中•最简单的方法是将网络信 
息作为独立 n 变量纳入到标准的广义线性模型以及非参数 
模型中。例如，一个以行动者为中心的研究方法如果选择对 
长寿问题进行分析.将会选择美国加利福尼亚州阿拉米达县 
有代表性的成年人做为样本，采用卡方 （ chi - squared ) 检验的 
方法来判断社会网络特征（如•亲密朋友的数 M ) 与死亡率之 
间的关系。这种特殊的研究方法检验的是 li 我中心网的数 
据.该数据不同于之前我们提到的癌症组织网络中所用到的 
数据(属性数据）。 

自我中心网络 （ egocentric net work ) 的数据通常是来源 
于个体对他们相关个人网络的描述。例如•图 1.4 的三个自 
我中心网就是一项针对失业问题的研究•在该项研究中 *39 
位求职者被问及在最近找工作的过程中所联系的人和机构 
(Harris Baker et al. , 2012 ) 。 其中，每一个自我中心网络 
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都是一个从个体视角出发的寻觅工作机会的网络，而整个数 
据集一共包含了 39个这样的网络。每一个网络正中心的图 
形就是自我中心 ( ego ) ，或者称之为参与者( participant )； 其他 
的图形则代表了该自我中心在最近找工作的过程中所联系 
的组织和人员。在图 1.4 中，阴影部分用来区分种族，形状则 
用来表示就业状态。这种以行动者为中心的研究方法旨在 
理解，如何通过这些自我中心网络来解释处于不同就业状态 
人员所表现出来的在行动者属性特征上存在的差异？尤其 
是，求职者的自我中心网的规模和组成如何解释他(或她）所 
处的就业状态？ 



參失业的非洲裔美国人 O 失业的白人■就业的非洲裔美国人 
口就业的白人 ▲ 机构或网站 

从三个参与者的求职自我中心网视角观察失业问题 (Harris Baker el 
aU 2012)* 

图 1.4 


不是所有以行动者为中心的模型都使用了自我中心网 
数据，有一些采用的是整体网络 (whole network ) 数据。整体 
网络数据通常是通过定义一个研究者关心的网络（例如.城 
市中提供癌症治疗服务的组织），并找出符合该定义的一系 
列网络成员名单•从而建立整体网络的。这里，网络成员通 
常会被问及他们与成员列表名单中其他成员的关系，从而形 
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成一个单一的、能够展现所有网络成员之间关系的网络。前 
面提到的癌症组织网络就是一个整体网络的例子。该网络 
是通过如下方式来测 量的. •首先，识别一个城市范围内为缺 
医少药的癌症患者提供服务的机构名录，然后，调查每一个 
机构与其他所有机构之间的关联。 

除了使用标准的统计模型方法（例如卡方检验)之外，还 
有一些以行动者为中心的建模方法。例如，与潜类分析 
(latent class analysis ) 相似，随机块模型 (stochastic block - 

modeb ) 方法将个体行动者根据近似相同的原则划分为若干 
块或者不同位置，于是，网络可以通过若干块之间的关系来 
表示 ( Anderson , Wasserman Faust ，1992)。以行动者为 
中心方法还包括传染病模型 （contagion models ) ，该模®旨在 
通过空间回归方法 （spatial regression approach ) 将— I s * 网络 
视为一 1、预测变量 (van Duijn H uisman ,2011)。 另外，还 
有纵向网络模型 （longitudinal network models ) 或者社会网络 
动力学 （social network dynamics ) 的统计模型，这些模型既可 
以是以行动者为中心的模型 fe 可以是以关系为中心的模型， 
这些模型将随时间而产生的网络变化视为行动者的选择引 
入模型中来.或者将网络变化视为网络中二元组或关系层次 
的变化函数 ( Snijders . 2002, 2011 b ； Snijders , van de Bunt &- 

Stegiich , 2010)。 最近，以行动者为中心的方法还引入了潜 
在位置聚类模型 （latent position cluster model ) 0 这种复杂的 

模型可以将行动者的厲性(例如，年龄、性别、种族）整合进潜 
在空间的网络成员间的聚类算法中 （Krivitsky Handcock , 
2008； van Duijn &- Huisman , 2011) ，从而识别差异化的聚类 
模式。吏多的有关以行动者为中心的模型信息，包括专门对 
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不同类型行动者模型的资料•可以参考范 • 杜因和哈斯曼 
(van Duijn 8^ Huisman ， 201】）的文章。 

以关系为中心的研究分支旨在解释或分析关系以及关 
系的模式 • 该分支包括了 一系列针对多种数据类型及不同研 
究问题的模型。其中，二次指派程序 (quadratic assignment 
procedure . QAP ) 和多元回归二次指派程序 （multiple regres ¬ 
sion quadratic assignment procedure . MR - QAP ) 都可以用来 
测量网络之间的相关性 （Krackhardt _ 1987： van Duijn 
Huisman ，2011)。 社会关系模型 (social relations model . 
SRM > 是一种由嵌人在行动者中的二元组构成的多层次回归 
模型 （multilevel regression model )<• 这里模型中的行动者是 

作为一个联系的发送者或者接受者而言的 （Kenny & La 
Voie, 1984 ； van Duijn Huisman. 2011 )。 社会关系模型 

可以用来构建包含加权关系的复杂网络模型•还可以通过增 
加网络层次的方式将模型扩展到多层次网络模型。然而•上 
述方法往往仅针对一种特征模型或问题。指数随机图模型 
( ERGM ) 虽然也是以关系为中心的 方法. 何它与之前所讨论 
的其他以关系为中心的方法不同.它是以概率分布的指数族 
为基础的统计模型大家族中的一部分。在这个指数族中包 
括许多模型，其中•大多数模型都是针对非网络数据的。然 
而•指数随机图模型则可以专门针对网络数据，也可以包含 
网络成员的属性数据，甚至可以将整体网络特征作为自变量 
来预测二元网络的网络结构问题(二元网络是指网络中的连 
线仅用0和1来表示是否存在联系，连线本身并没有具体权 
值)。最终，学者们正在努力将现有的估测复杂指数随机图 
模型的程序扩展到包括加权网络 ( Krivitsky . 2012)。 
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第2节 | 网络术语 


任何新人都可能会在（网络分析的）术语丛林中种 
植下一棵树，这恰恰彰显了网络分析方法易于被人理解 
与接受的特质。 

-巴恩斯 （ Barnes ，1972:3) 

自20世纪70年代以来，网络科学经历了相当快速的发 
展。正如巴恩斯在1972年所指岀的，在网络科学领域一个 
术语丛林已经形成•这里有许多术语其实是一个意思，而另 
外有一些术语则可能同时包含很多不同的意思。如图 1.5 所 
示，我们将对本书中所用到的一些网络概念和定义进行简单 
的描述•还有一些术语我们将根据需要在书中内容部分以及 
附录中进行解释。 

一个网络是由一系列行动者 （ actors ) 及其关系 （ relation - 
ships ) 所构成的。行动者也被称为节点 （ nodes ) 、顶点 （ verti ¬ 
ces ) 、个体 ( individuals ) 或者成员 （ members )。 而行动者之间 
的关系又经常被称为链接 （ links ) 、线条 （ lines ) 、联系 
( relations ) 或者关系 （ ties ) 。这些链接、线条、关系或者联系 
可以是有方向的也可以是无方向的，•可以是二分数据(存在/ 
缺失）也可以是有值/加权 数据； 如果两个行动者之间的关系 
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存在方向，虽然本书中自始至终没有采用该种数据类型（例 
如，卡伦送钱给彼得），那么，行动者之间的关系就是有向的， 
也经常被称为弧 ( arc )， 利用一个箭头表述，例如卡伦—彼得。 
有向关系可能是单一方向形式(非对称），也可能是双向形式 
(相互或互惠）•这种双向形式可以利用一个双向箭头来表 
示，例如，卡伦彼得。如果两个行动者之间的关系并没有 
一个专指的方向(例如，卡伦和彼得共进午餐），这种情况（连 
线)通常被称为边 （ edge )， 用一条连接两个行动者之间的连 
线(卡伦一彼得)来表示(没有箭头）。 

一个网络中所有成对的节点都是二元组 （ dyads )。 二元 
组可能相互连接，也可能不连接。在一个有向网络中，二元 
组可以通过一个非对称的联系或者交互的联系建立起连接。 
三元组 ( triads ) 则是网络中三个节点的子集 （ sets ) 。同二元 
组一样，这些三元组之间既可以是连接的，也可以是不连接 
的。图 1.5 包括二元组、三元组以及其他一些网络重要的特 
征的图形展示形式。 

本书中的剩余部分将关注解释和阐述指数随机图模型。 
指数随机图模型包含了以联系为中心的统计网络模型•就如 
同图 1.3 中的癌症组织网络一样。这里，联系是指一个二分 
变量(存在或不存在），而网络信息来源于对整体网络的横截 
面信息的提取。如果在进行网络分析的过程中发现上述描 
述方法并不合适，可以参考一些其他资料，例如，沃瑟曼和福 
斯特 （Wasserman Faust , 1994) 、斯科特和卡林顿 (Scott 
Carrington , 2011) ，以及瓦伦特 （ Valente ， 2010)。书中的第 
2章描述了指数随机图模型的历史发展以及统计理论 基础; 
第3章和第4章展示了一个复杂的指数随机图模型从开始 
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到结束的构建过程•本书并没有包含更广义的指数随机图模 
型 一一 考虑加权关系的模型，目前•对于广义指数随机图模 
型的研究仍在进行中（参见 Krivitsky . 2012). 
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对于整体网络的观察有助于我们认识社会力量 （social 
forces ) 是如何塑造真实世界系统的。建立以关系为中心、 
面向整体网络分析模型的目的 在于： 解释并预测网络中两 
个行动者之间关系的形成。复杂的以关系为中心的整体网 
络模型可能包含网络成员的属性特征、网络全局结构特征 
等因素.最终•通过结合这些因素构建的复杂模型可以用来 
解释并预测网络关系的形成。这些模型可以分为以下四种 
类型： v 

(1) 简单随机图模型 （simple random graph models )； 

(2) 二 元独立性模型 (dyadic independence models) ； 

(3) 二 元依赖性模型 （dyadic dependence models) ； 

(4) 高序依赖性模型 （ higher-order dependence models ) 
( Robins ， 2011 ； Wasserman Robins * 2005) 

上面所列举模型是依据其不断增加的复杂程度进行排 
序的，这个顺序也恰恰反映了以关系为中心的统汁网络模型 
的发展历程。随着不断添加更为复杂的假设条件，统计网络 
模型不断完善。本章有两个平行的目标：（1)描述这四类模 
型的发展 历程； （2) 审视这四类模型的统计形式及其所依据 
的假设。统计建模，尤其是针对网络的统计建模，其目的在 
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于解释观测网络与随机发生网络之间的差异，因此，在讨论 
更复杂模型的构建及形式之前，我们首先介绍简单随机图 
(simple random graphs ) 模型。 



指数随机图模型导论 

第1节 I 简单随机图 


在审视整个模型发展过程之前•将简单随机图的特征作 
为理解整个网络模型的基础十分有必要。一个简单随机图 
是在由〃个节点构成的所有可能网络中随机选择的网络•其 
中•网络中的每一条连线(联系两个打点）都以同样的特征概 
率发牛 （Frank 8^ Strauss, 1986 ； Karon ski . 1982) u 因此,— • 

个随机图中节点之间的关系都是基于某种概率随机发生的. 
关系之间是相互独立的。 S 卩•在一个包含同事之间朋友关系 
的网络中，道格和金姆成为朋友的概率是独立于网络中其他 
朋友关系的，包括道格和金姆与网络中其他成员之间成为朋 
友关系的 概率; 同时，道格和金姆成为朋友关系的概率与网 
络中其他朋友关系形成的概率是一致的。因此，一个简单随 
机图模型就是在网络成员之间随机分配关系•不考虑网络成 
员的属性影响因素以及任何可能影响关系形成的社会力量。 

简单随机图中关系发生的概率是网络中所观测的关系数 
占所有可能的关系数的比例。计算所观测的关系数占所有可 
能的关系数的比例与网络密度 （ network dcnsi ty ) 的概念是一 
致的•该概念显示了网络联系的密集程度，是通过从 0( 表示网 
络成员之间完全不存在联系）到 1( 表示网络中所有可能的联 
系都实际存在)之间的范围来评价的。对于一个无向网络而 
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言•网络密度可以采用如下公式来计算其中, 

L 是网络中边的数量是网络中节点的数量•而网络中节点 
的数 M ( « ) 就是网络规模 (network size ) 0 

为了描述简单随机图和所观测的真实网络之间在结构 
特征上的差异，图 2.1 展示了一个简单随机图•该图与图 1.3 
中所显示的癌症组织网络具有同样的网络规模和密度。通 
过对简单随机图与觇测网络进行比较可以帮助我们认 识：观 
测网络的某些特征并没有出现在简单随机图中。这种类似 
比较对于统计网络模型构建是十分关键的。 



图 2.1 —个包含38个节点和任意两点间 

关系形成概率为14%的简单随机图 
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虽然各种社会力量均对网络的形成产生了影响，而且影 
响之间还存在较大的 差异. 但是网络科学家已经发现，在真 
实的观测网络中存在许多结构性特征 （ Snijders , 2011 a ； Riv ¬ 
era , Soderstrom Uzzi ， 2010 )， 这些特征能够将观测网络 
与简单随机图显著区别 开来： 

1 . 网络成员在建立关系的倾向上并不是完全相同的，即 
非均匀性度分布 （ nonuniform degree distribution) 。 例如，在 

一个工作场合的朋友关系网络中•有一部分工人与其他工人 
相比•他们能够获得更多的朋友关系。 

2. 具有相似特征的行动者之间建立联系的概率往往要 
高于基于随机联系产生的概率，即同质性 （ homophily ) 。在 
一个学校的环境下，如果布莱恩和本都是男孩，那么他们之 
间成为朋友关系的概率就会大于随机选择的学生之间成为 
朋友关系的概率，而贝琪可能与南茜交朋友的原因恰恰是她 
们都是女孩 。,,’ 

3. “朋友的朋友也是我的朋友”发生的概率通常要高于 
随机发生的概率，即传递性 （ transitivity )。 如果，南茜是布莱 
恩的朋友•而布莱恩又是本的朋友，那么，南茜和本就很有可 
能成为朋友。 

4. 真实有向网络往往会比随机(有向）网络产生更多的 
互惠性 ( reciprocity ) 联系。当布莱恩传送消息给贝琪时，贝 
琪也会给布莱恩传送信息，而且这种回馈的概率要比随机期 
望的概率要更高(布莱恩—贝琪)。 

通过观察比较图 2.1 简单随机图与图 1.3 的癌症组织所 
形成关系网络之间的差异，能够很好地诠释上述提到的诸多 
差异中的两项差 异:非 正态的度分布以及传递性。癌症组织 
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网络的度分布呈现明显的右偏倾向•少量的组织拥有大量的 
联系，而在简单随机图中的度分布则接近于均匀分布（参见 
图2.2)。实际上，一个不断衰退的度分布恰恰显示了大多数 
的网络成员仅拥有少量的联系，而少数成员则拥有大量的联 
系。这种不断衰退的分布特征不仅出现在癌症组织网络中， 
它也体现在许多具体的观测网络中。 




度（癌症组织） 度（随机网络） 

通过直方图展示 : 具有相同的节点规模 U = 38 ) 以及边密度 M = 0. 14 ) 
特征的癌症组织 M 络(左）和简单随机图网络（右)在度分布上的差异。 

图 2.2 

在无向网络中，传递性或者说是“朋友的朋友也是我的 
朋友”的属性，可以通过观察完全三元组子结构（即由三条边 
构成三角形）或者三元组中三种边自由组合的情况（参见 
图 1.5 对三元组的图形描述）来实现。癌症组织网络中共有 
71个三角形，而在简单随机图网络中则仅有32个三角形。 

除了三角形之外，网络中其他两种特征结构的存在情况 
也可以帮助我们区分三元传递结构是否存在 ：边共 享伙伴 
( ESP ) 以及二元组共享伙伴 ( DSP )。 边共享伙伴是指存在一 
个连通的二元组(参见图 1.5 中的二元组类型）.且该二元组 
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的每一个成员都与网络屮的第三方成员相连接的情形（参见 
图2,3)。在任意给定的三角组结构中.都存在三种边共享伙 
伴情形。例如，图 2.3 的左上角所显示的三角形中 ， Ij 的边共 
享伙伴为 K . IK 的边共享伙伴是 .1. Kj 的边共享伙伴是 U 
网络中的边共享伙伴的数量是三角形数量的三倍^每条边 
也可以共享超过一个伙伴（图2 . 3 ), 边存在多个边共享伙伴 
是网络中紧密连通聚类特征的一种表现。 

一个二元组共享伙伴 （ DSP ) 是指一个二元组（无论连通 
与否），二元组的每一个成员都与网络中的第三方成员相连 
接。二元组共享伙伴被认为是传递性的先决条件，因为一个 
没有连通的二元组共享伙伴仅需要增加一条边就可以完成 
一个或者多个三角形的构造过程。 

1个共享伙伴 2个共享伙伴 3个共享伙伴 

1 ° :、• :!，。 

二元组 Ij 的边共享伙伴（图 上方〉 以及二元组共享伙伴（图下方 ）。 其 
实，边共享伙伴也可以被认为是一种特殊的二元组共享伙伴类型。 

图 2.3 

网络中边共享伙伴的分布显示了有多少相互连通的二 
元组，以及这些连通的二元组具有1个共享伙伴、2个共享伙 
伴等的情形(如图2.4)。同样的•二元组共享伙伴的分布也 
显示了网络中具有1个共享伙伴、2个共享伙伴等情形的二 
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元组的数量。观测网络往往较随机网络在二元组共享伙伴 
的数量上具有优势（参见图 2.4) •这显示了观测网络要比随 
机网络具有更强的传递性以及预传递结构。图 2.4 中的条形 
图显 示了： 在实际观测的癌症网络中•有一些边拥有5个以 
上共享伙伴.而在随机网络中•大多数的边仅存在一个或者 
两个共享伙伴（图上方）。二元组共享伙伴也存在同样的情 
形(图下方）。 


I 



ESP 的数 M (癌症组织) 


8 


40 

30 

20 

10 

0 



ESP 的数镇（简单随机图） 




DSP 的数最（癌症组织） DSP 的数量（简单随机图> 


具有同等网络规模 (《 = 38) 以及边密度14 > 的 癌症组 织网络（图 
左侧） 和简单随叽网络 ( 阁右侧 ） ，以及上述两个网络分别听对应的 ESP 分布 
(图上方）和 1 )SP 分布（图下方）。 


图 2.4 
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第2节 I ERGM 的发展 


以关系为中心的指数随机图模型 （ ERGM ) 家族的发展 
最早可以追溯到1959年简单随机图模型的提出。下面这一 
部分所描述的四种模型类型分别代表 ERGM 发展过程中四 
个关键的里程碑•分别 为：简 单随机图模型、二元独立性模 
型、二元依赖性模型，以及高序依赖性模型。 

简单随机阌模型 

1959年，艾多斯和瑞尼提出了一种利用统计模型来获取 
简单随机图特征的方法（ Erdos Renyi ， 1959； Frank 

Strauss ， 1986 ； Karonski , 1982)。 该模型的统计形式 如下： 

P(Y = y )= (丄) exp {0 L (. y )} [2.1] 

这里 r 是一个常数，它确保了随机网络^的概率是在 0 
到1之间，/ V )是网络: y 中边的数量，0是边条件项的系数。 
简单随机图模型所包含的一个假 设是： 网络成员之间关系的 
产生是随机的，是独立于其他成员之间关系的。简单随机图 
模型通常并不能够很好地把握所观测网络的结构特征，因为 
简单随机图模型方法忽视了对于影响网络关系形成的社会 


第 2 章统计网络模型 


力量的关注。虽然该模型无法在结构方面提供更多有用的 
信息•但它却提供了一条与其他更复杂模型进行比较以及未 
来进行模型改进评价的基线。 

二元独立性模型 


ERGM 发展过程中的另一个重要阶段出现在1981年， 
霍兰德 ( Holland ) 与莱因哈特 （ Ldnhardt ) 发展了一种针对二 
值有向网络的模型•该模型目标在于理解观测网络的两项特 
征: （ 1 ) 观测网络的入度 （ indegree ) 分市存在较大差异，或者 
说行动者接受到链入关系的数量与其期望值之间存在较大 
的差异； （2) 互惠（或者交互）关系的发生经常与期望值存在 
较大差异。霍兰德和莱因哈特提出利用 A 模型来估计由于 
互惠性 （ reciprocation ) 以及差异化吸引性 (differential attrac - 

tiveness ) 所造成的数量差异，并利用这些特征来检验一个观 
测网络存在的概率问题。 h 模型是第一个可以针对网络规 
模与密度均存在差异的有向网络直接进行比较的模型 。 h 
模型的统计形式包括四个部分，分别对应一个二元组 （0 ) 四 
种可能的状态： （ 1 ) 两点之间不连通，即，• （2) 从/到 j 之间 
存在非对称的连线，即 Pk , J 3) 从 j 到/之间存在非对称的 
连线，即 P < ll ; (4) 在/到 j 之间存在一条互惠的连线，即 P 11o 
每一种状态的概率如下： 


Poo 

Pio 




= / 十口,+沐 " f/u 


P 


— - fa , 邮, +2/ x + p w 


[ 2 . 2 ] 
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这里 a 代表一个标准化常数 •《 表示连接的发送方4 
则表示连接的接收方 W 表示网络的密度 f 代表网络中互惠 
连线的数量 （ An . 2011 ； Holland 8- Leinhardt • 1981 ； Van 
Duijn . Snijders &. Zij 1 st m ， 2004) 0 基于上述四种条件，所观 
测网络. V 的概率可以表示为 (Aru 2011)： 

•V N 

P(Y = y ) oc exp jxL ( y ) + 乂十 + + fjM ( y ) 

i j 

[2.3] 

这里是网络中连接的数量•兄、是网络中连出关 
系的数量/是网络中链人关系的数量.而 MQv ) 是网络中 
具有互惠关系的数量6然而模型较简单随机图模型更有 
意义的地方在于•该模型所依赖的假定是二元独立性假设 • 
或者说是假定二元组在统计上具有独立性。正是基于这种 
假定模®无法解释传递性、派系以及除互惠性和差异化吸 
引性以外的一些网络结构特征问题 （Holland & Leinhardt . 
1981)。霍兰德与莱因哈特 （1981) 认识到了该模型的局限 
性，并利用这种局限性为该模型命名。仏模型中的下标1表 
示 P ' 模型是一系列模型中的第一个。他们工作的目标就在 
于通过建立一系列模型来推动理论与方法的进步•从而使模 
型能够包含更加复杂的依赖性假设。 

虽然在后续的原创性实证分析中， A 模型并没有被广 
泛采用•但该模型确实成为后续模型构建过程中若干主要基 
石之一。霍兰德与莱因哈特的若干贡献中的其中一项就是 
推进了利用分布的指数家族来判断观测网络的概率，这一点 
在 ERGM 名字中就有所体现。指数家族就是一组概率分 
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布•包 括:正 态分布、卡方分布、指数分布以及其他通常所使 
用的分布。更进一步来说，任何像公式 2.4 这样的具有一个 
概率密度的随机变量都来源于指数家族。 

f ( x ) oc exp {} [2.4] 


ERG M 发展过程中另一个具有里程碑意义的事件发生 
在5年之后的1986年。弗兰克 （ Fmnk ) 和斯特劳斯 
( Strauss ) 利用指数家族分布，整合了网络成员之间的依赖性 
假设.确立了新一代的统计网络模型。进一步而言，弗兰克 
和斯特劳斯的模型将马尔科夫依赖性假设 （Markov 
dependence assumption ) 引人到模型中来，该假设强调了那些 
没有共享节点的边之间的条件独立性 （Frank Strauss ， 
1986)。即假定网络中的其他因素不变时•行动者 A 与行动 
tB 之间建立联系的概率与行动者 C 和行动者 D 之间建立 
联系的概率是彼此独立的.因为这两项联系不包含共同的行 
动者\马尔科夫依赖是一种广义的假设，即假定包含同一 
个节点的若干连线之间是相互依赖的，这是一种二元依赖性 
模型的形式。举例而言•在一个交友网络中•克林特和利安 
娜的友谊关系与利安娜和埃文的友谊关系之间存在相互依 
赖关系，因为这两组朋友中都包含一个共同的成员——克林 
特。正是考虑到这种依赖性•弗兰克和斯特劳斯仅仅用一些 
统计项就提出了马尔科夫随机图模型： 


^这是对之前二元独立性模型假设的进-步约束 .. 译荇注 
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P(Y = y ) = ) exp ^ OL ( 3 ^) + ) + … -4 - rT ( y )} 

[2.5] 

这里， r 、 U3O 以及0分別代表了常数、网络中连接的数 
量，以及连接数量的系数。这些统计项与简单随机图 模塑所 
使用的统汁项是一致的（公式 2. i ) 。 S “. V ) 项则代表了网络 
中具有 f 星的子图数量(参见图]中々-星的若干形态）；因 
此， S“30 也就代表具有2-星特征子图的统计项。将々-星项 
纳入模型中来的主要目的是为了帮助了解度分布的不均衡 
性，在网络中，无论是具有低度数的节点（例如 ，1 -星节点、 2- 
星节点、3-星节点)还是具有高度数的节点（例如4-星节点、 5- 
星节点、10■星节点），它们都被视为一个独立的々-星项。对 
应的 ( J 是对于每一个 f 星项的参数估计值。了(>0项则表示 
网络中三角形的数量， r 则是其对应的参数。与简单随机图 
模型相比，弗兰克和斯特劳斯的模型将观测网络中更多的网 
络结构特征纳入到了模型中，但没有将网络成员特征 
(network member characteristics) 纳人统计网络模型框架中 

作为协变量，例如性别和种族等。协变量是社会过程 （social 
process ) 中十分重要的因素•因此，协变量的缺失限制了该模 
型的应用。 

弗兰克和斯特劳斯模型作为后续的统计网络模型发展 
(Wasserman &- Pattision , 1996 ) 的基础具有极为重要的作 

用一沃瑟曼和帕蒂森在10年后扩展了马尔科夫模型。为 
了与霍兰德和莱因哈特 （1981) 的沁模型相区别，沃瑟曼和 
帕蒂森将他们新的依赖性模型命名为 〆 （ P - 星）模型 
(Hunter &. Handcock ， 2006)。 〆 模型假定在网络中各连线 
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之间存在更广泛的条件依赖关系，具体而言就是，当网络中 
其他连线已经确定条件下，两条具体的连线之间存在条件依 
赖关系 • a 两条连线同时存在的条件概率不等于两条连线各 
自边际条件概率 （marginal conditional probabilities ) 的乘积 
(Wasserman & PattLson ，19%)。 也就是说，任意两条连线 
同时存在的槪率是不同于这些连线各自存在概率组合的。 
这一假设的普遍性使得我们可以将含有大部分依赖性假设 
条件的 ERGM 看作是，模型。/>’模型也具有了整合协变 
量的能力。 〆 模型的一般形式表 示为： 


P ( Y = y ) = (+) exp j ^ QkZk ( y ) ^ 


[ 2 . 6 ] 


这里， 1 是一个常量•用来确保概率始终保持在 0 到 1 
c 

的范围之内，同时保证所有可能网络的概率和为1。仏是网 
络统计量[由 A ( 30 所表示]所对应统计项的参数。为了便于 
使用与解释.公式 2.6 中所表示的，模型的一般形式实际上 
就包含了公式 2.7 所示的模型。公式 2.7 并不是用来预测整 
个网络出现的可能性的，而是可以在网络中其他连线已经确 
定的条件下，预测一条连线出现的概率（ Hunter ， Handcock , 
Butts，Goodreau Morris , 2008)。 还有一些关于公式 2.6 

和公式 2.7 之间相关的技术信息可以参考亨特和汉考特等的 
文章 （Hunter & Handcock et al .• 2008)。 

logit ( P ( Y 0 =1 I w actors , )) =2] 0*5 一 > [2.7] 

4 = 1 

在公式 2.7 的右侧代表网络统计量的个数〜则代表 
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总数量。&表示每一项网络统计项所对应的系数。表 
示当增加一条/ flu 之间的连线时，即随着八从0到1变化 
时，网络统计量所发生的变化 （(k)odreau. Kitts 8-^ Morris， 
2009) 0 这个 S 统计量被称为变化统计 （change statistic) ，是 
逻辑回归模型 （logistic regression model) 与〆模型在解释方 
面最关键的差异。在公式 2.7 的左侧.分隔符号 显示八 
=1的概率是以剩余网络为条件的•这里八表示网络中除去 
\之外的所有二元组关系。和逻辑模型一样，分对数转换 
(logit transformation) 被用于重新构建公式 2.7 •使得公式的 
左侧成为以一条连线为条件更简化条件概率形式，这样更便 
于模型解释(公式2.8)。 

P ( y i} =1 | n actors，vy) = logistic(0!^ |(y) +0 是 (，"••） 

[ 2 . 8 ] 

公式 2.8 中所显示的/^模型的表示形式和传统逻辑回 
归模型的使用和解释十分相像•除了两个重要的区别。第一 
个区 别是: 与系数0相乘是公式中对应的变化统计量 S, 相比 
较而言.逻辑回归模型中与系数0相乘的项通常是对应自变 
量的值。对于〆模型中所整合的许多统计项而言，变化统 
计的结果是比较容易界定、识别并使 用的； 但对于有些涉及 
复杂依赖性(如传递性)的统计项，计算并解释这种变化统计 
结果时就会存在困难。第二.公式 2.8 右侧的分隔符号“ I”之 
后的部分强调 ：当且 仅当网络中其他因素都保持不变时，公 
式 2.8 右侧所表示的概率才适用。所以，以该模型为基础所 
计算的概率必须理 解为： 在网络中其他因素保持不变时，网 
络中〖和 j 之间的连线的概率。 
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需要注意的是 • A | 模型中所考虑统计项不仅限于针对 
网络特征的统汁项•就像简串随机图、模型以及弗兰克和 
斯特劳斯模型中的统计项那样•还包括针对网络成员的厲性 
特征(例如，性别、年龄、收人等）的统计项。因此， />• 模型就 
具有考虑网络成员厲性特征的能力•这种属性特征经常是伴 
随着观测网络的结构特征存在的 ： 互惠性、同质性、传递性以 
及非均衡的度分布。 〆 模型所具有的灵活性以及与逻辑回 
归模型相似的统计形式•使得 〆 模型成为了社会科学家在 
进行网络研究时极为有效的 工具。 具体而言模型可以 
用来理解一个给定实证网络是否可以由网络成员本地属性 
特征（例如，年龄、受靡状态等）以及整体网络的结构特征 
(如•传递性的数量）而形成。最后.虽然公式 2.6 和公式 2.7 
是作为 P •模型提出的 . f ! l 这些公式可以表示那些不符合， 
模型条件依赖假设的 ERGM 模型。例如•这种模型形式可 
以用来表示一个简单随机图模型•而后者的基本假设 是：网 
络成员间的关系是独立的。 

高序依赖性模型 

尽管 〆 模型不断地将传递性、同质性以及其他观测网 
络的特征统计项整合进模型中来•模型的灵活性得到了提 
升，但 〆 模型仍然存在诸如近似退化 （ degeneracy ) 等问题 • 
表明，模型仍无法充分获取观测网络结构特征。网络模型 
中的近似退化现象通常由这样的模型来表示•即其产生的模 
拟网络要么大部分为空图要么大部分全图（参见 Robins , 
Snijders . Wang . Hand cock Pattison , 2007,该文中图 1 是 
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一个极为经典的图形示例）。当对图形的统计结果进行平均 
计算时，那些由绝大部分为空图或大部分全图所构成的网络 
似乎也获得了貌似合理的统计结果，这种现象的岀现凸显了 
对于模型拟合效果 （m oc I e 1 fi t ) 进行仔细检验的必要性。 

为了阐述近似退化的问题，帕蒂森和罗宾斯 （Pattison 
Robins , 2002) 提出 了 一个局部条件依赖 （partial conditional 
dependence ) 的假设。局部条件依赖性假 定:不 共享节点的两 
条连线之间的依赖关系可以依据网络中其他关系的存在而 
产生。2006年，斯尼德斯 （Snijders ) 和他的同事 （ Robins ， 
2011； Snijders , Pattison , Robins & Handcock , 2006) 提出了 
适合于 〆 模型的新模型参 M(new model specifications ) ，这 
些参量的提出为解决由帕蒂森和罗宾斯 （2002) 提出的局部 
条件依赖问题提供了一种专门方案。具体而言，社交圈依赖 
(social circuit dependence ) 就是局部条件依赖的一种形式^ 
当两条连线能够构成一个4元循环 (4- cycle ) 网络时，这两条 
连线可用于展示这种 社交圈 依赖。图 2.5 中，根据社交圈依 
赖•连线 AC 和连线 BD 条件依赖于连线 AB 和连线 CD 的 
存在。 

斯尼德斯和他的同事 (2006) 当时并没有提出要改变 〆 
模型的形式以解释这种新的依赖性假设，相反，他们提出应 
该在 〆 模型估计的过程中增加三个非线性的统计项。设计 
这三个统计项是为了解释条件依 赖：儿 何加权度分布 （ geo ¬ 
metrically weighted degree distribution ) 或者是交替々-星 （ al ¬ 
ternating 々- star ) ，交替厶-三角形 （alternating 々- triangle ) ，以 
及交替路径 （alternating A - twopath ) (Snijders et al ., 
2006)。 这些统计项后来乂经亨特和汉考特等人的修改，具 
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图 2.5 连线 AC 与连线 BD 之间的4元循环的社交圈依赖 


有 J 更为简化的解释 （ Hunter ，2( X )7 ； Hunter Handcock ， 
2006) 0 具体而言，亨特和汉考特提出了几何加权度分布 ( geo ¬ 
metrically weighted degree distribution ， GWD )、 几何加权边共 
享伙伴 （geonietrically weighted edgewise shared partners ， 
GWESP ) ，以及几何加权二元组共享伙伴 （geometrically 
weighted dyad wise shared partners , GWDSP ) 等统汁项，作为 
斯尼德斯所解释观测网络中复杂结构以及依赖性条件的替 
换方法。这些经亨特和汉考特修改后的统计项将在下一部 
分中 介绍； 而原始统计项(新模型参置）则可以参见斯尼德斯 
和他的同事 (2006) 的论述。下面的论述主要遵循亨特和汉 
考特 (2006) 的相关定义。 

几何加权度 （ GWD ) 。 GWD 统计项被用于考察观测网 
络中不断递减的度分布特征(例如图 2.2 左侧）。该统计量是 
以每一个中心度值所对应的频数乘以一个加权参数然后求 



4 () 
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和得 到的： 

/t-1 

u ( y ； a ) =e a ^ J {l~(l-e^)'}D l (y) [2.9] 

这里 J 是代表一个网络， a 是一个所选择的或者估计的 
衰减参数 (decay parameter ) ，/代表中心度•而 D , () 则代表 
网络 jy 中中心度为/的节点数量 （ Humer , 2007)。 {1 — (1 — 
这个乘数包含了几何函数•这个 JL 何函数用于加权该 
网络统计量所对应的中心度； a 是一个中心度加权参数 
(degree weighting parameter ) ，用于控制权重。网络统计量 
的值 〆 a ) 是依赖于网络度分布以及选择的衰减参数《 
的。为了阐述 GWD 以及与之相对的一个度加权参数 a 值的 
计算过程•我们将使用图 1.3 和图 2.2 中的癌症组织网络作 
为示例。如图 2.2 所示，该网络具有一个不断衰减的度分布。 
表 2.1 显示了网络中不同度的值 (/) .以及每一个/值所对应 
的频数， D , ( 30以及接下来对应三个不同 a 值的 CxWD 计算 
结果。 


表 2.1 对图 1.3 和图 2.2 中所显示的癌症组织网络进行 GVVU 计算 


Degree i 

Frequency D, ( v 

(1 — (1 一 e ° ) f } D t (y) 

\ 

/ 

a =0.25 

a = 0.5 

a= 1.0 

0 

4 

0 

0 

0 

1 

2 

1.56 

1.21 

0.74 

2 

5 

4.76 

4.23 

3.00 

3 

4 

3.96 

3.76 

2.99 

4 

4 

3.99 

3.90 

3.36 

5 

产 

0 

5.0() 

195 

4.5() 

6 

0 

0 

0 

n 

7 

3 

3.00 

3.00 

2.88 

8 

4 

4.00 

4.00 

3.f)0 


第 2 章统计网络橫型 


续表 


Decree / 


{i 



r y u f \ y > ~ 

a ~0,25 

a =0.5 c 

i = 1.0 

9 

2 

2.00 

2.00 

1.97 

10 

2 

2.00 

2.00 

1.98 

11 

1 

1.0() 

1.00 

0.99 

12 

0 

0 

0 

0 

13 

1 

1.00 

1.00 

1.00 

14 

0 

0 

0 

0 

15 

0 

0 

0 

0 

16 

0 

u 

0 

0 

17 

0 

0 

G 

0 .* 

18 

l 

1.00 

1.00 

1.00 

19 

0 

0 

0 

0 

20 

0 

0 

0 

0 

! 1 — (1 一 r u ) § ! D, (y) 

33.26 

32.04 

28.30 

A J 
/ 1 

(i — ^ ;r>,( v) 

42,70 

52.8：^ 

76.93 


需要注意的是，在这些计算过程中有两个因索会影响到 
GW 1) 统汁的结果 ：网络 中高度值节点的比例以及 a 值的选 
抒。苜先，通过将括号中的值增加到与相关的度的值一样,/ 
指数能够确保耶些具有 g 高中心度的节点对整个网络统计 
结果产 生®: 著的影响。例如•一个度值为 13 的单一节 点. 
其在括号中的值将被提升至 13 次幂。其次， 1 。的值随 
着 a 增加而变大•而这些®大的值又会被提升至/的轹•高度 
P 点由此再一次对整个网络统计产卞史‘重要的影响。 

观测网络通常服从不断衰减的度分市•因此.为了更好 
地理解； WI ) 统汁如何对观测网络的建模 产生影 响 • 检验不 
同 a 值下 GWD 值所对应的不同的度分布将是十分有益的尝 
试。图 2.6 展 示了一 个拥有55个竹点的网络分別对应四种 
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-一均匀分布 一线性增长分布 

••… 线性递减分布 一指数递减分布 

资料 来源： 改编自 M Morris (个人通讯 .2011 年3月17日）。 

图 2.6 基于度分布和 a 值的55节点的 （; WI ) 网络统计结果 


不同类型的度分布的 GWD 统汁值。这四种度分布类型是: 
(1) 均匀分布； （2) 线性增长分布； （3) 线性递减 分布； （4) 指数 
递减分布。大多数的观测网络符合两类递减度分布中的一 
种情形。 " 

在一个具有55个节点的网络中，由度分布类型及所选 cr 
值所带来的差异(图2.6)，反映到 GWI ) 统计的取值上则显示 
为从 59.6 至126.7。由于具有更高中心度的节点被赋予了更 
高的权重，因此，那些具有最高中心度的节点（呈现线性下滑 
态势)的网络就具有最大的 GWD 统计结果，而那些具有最低 
中心度的节点(呈现指数递减态势）的网络就仅能获得最小 
的 GWD 统计结果。 



儿何加权边共享伙伴 ( GWESP )。 第二个统计项 GWESP 
是用来获取网络中的传递性模式的。边共享伙伴本质上就 
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是三角形 构建; 参见图 2.3 中对 1- ESP 、2- ESP 、3- ESP 结构 
的解释。 GWESP 解释了在观测网络中聚类所对应的传递性 
特征。聚类 ( dusters ) 是指一群节点，它们内部紧密连接•而 
外部则甚少 联系; 这些聚类由一些三角形和拥有多个共享伙 
伴的边所构成。因此 . GWESP 项能够检验这些三角形成为 
多个共享伙伴的边的趋势。 GWESP 的定 义为： 

rr-2 

v(y ； a)=e B ^{\~(\-e- a y)ESP t (y) [ 2 . 10 ] 

在公式 2.10 中， ESP , b ) 代表具有 f 个共享伙伴的边的 
数 M (参见图2.3)。除此之外，公式 2.10 与公式 2.9 的其他 
部分是完全一致的。我们仍选用癌症组织网络来举例，表 
2.2 显示了不同 ESP 分布下（如图 2.4 所示）对应的 GWESP 
统计的计算结果。 


表 2.2 对图 1.3 和图 2.4 中所示的癌症组织网络的 GWKSP 计算结果 


ESP, 


(1- 

n-e-^n^SPiiy) 

r reiju^Ui y Hoi i \ y) 

a = 0.25 

a —0.5 

a = 1.0 

0 

23 

0.00 

0.00 

0.00 

1 

23 

17.91 

13.95 

8.46 

2 

20 

19.02 

16.90 

12.01 

3 

11 

10.88 

10.33 

8.22 

4 

8 

7.98 

7.81 

6.72 

5 

4 

4.00 

3.96 

3.60 

G 

5 

5.00 

4.98 

4.68 

7 

5 

5.00 

4.99 

4.80 

n 

1-1 

69.79 

62.93 

48.49 

•r-l 

⑺】- 
r 龙 1 

(1 -e^V)ESP,(y) 

89.62 

103.75 

131.81 


和 GWD 统计一致，有两个因素会影响到 GWESP 的统 


44 I 指数随 机图模型导论 

计 结果： 网络中具有高 ESP 值的节点的比例以及所选择的 a 
的值。由于两种统计项（指 （;wr) 和 GWESP) 在形式上极为 
相似 ，(;WESP 对于具有/共享伙伴的边的展现模式与 （;wi) 
展现具有/中心度的节点的方式相同，所以•在一个拥有 55 
个边共享伙伴的网络中 .(;WESP 的取值将会依据 ESP 分布 
以及所选择的加权参数（参见图 2.7) 而不断增加。即那些包 
含更多多元共享伙 fh ( mul t iple partners ) 的边的网络将会貝 • 
有更高的 GWESP •同时值越高也会使得 (； WESP 具有更 
高的值，尤其是在网络中多条边都具苻多元共享伙伴时。 


0. 1 0.3 0.5 0.7 0.9 

a 

-- •均匀分布 一线性增长分布 

••…线性递减分布一指数递减分布 

图 2.7 基于 KM> 分布和 cr 值的 55 节点的 GVV1CSP 网络统计结果 

几何加权二元组共享伙伴 （GWDSP) 。 最后 ， （;WDSP 统 
计项关注的是具有共享伙伴关系的二元组数量(参见图 2.3)。 
这里， DSP 也包含在这些聚类中。 GWDSP 术语被定 义为： 

n-2 

Tjuiy ； a )=e a Y. {l - (l - )'\DSP ,(y) [2.11] 



t 采淀 .| 一 ^g:s:cus3M9 
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这里 DSP.b) 代表了那些与/具有共享伙伴（邻居关 
系）的二元组的数量 （Hunter， 2007)，公式 2.11 的剩余部分 
与公式 2.9 以及公式 2.10 是一致的。实际中.通常是那些具 
有多个二元组，且二元组都包含多个共享伙伴的网络会具有 
更大的 GWTXSP 值; 类似地，一个更高的 a 值也会赋予那些 
具有多个共享伙伴的二元组以®高的权重，最终导致 
(; WI)SP 值的提升。如表 2.3 所示图 2.4 的癌症组织网络的 
DSP 分布就体现了上述特征。同样的情况也可以在表 2.1 和 
表 2.2 中观察到。 • 


表 2.3 对图 1.3 和图 2.4 中所显示的癌症组织网络的 G \ VI ) SP 计算结果 


asp, 


{1-(1 

~e w » / XS'P. ( v ) 

r f n/urfu V 1 . / < v \ r ) 

a = 0.25 

a = 0*5 

a = 1.0 

0 

356 

0.0() 

0,00 

0.00 

1 

167 

130.06 

101.29 

61.44 

2 

94 

89.40 

79.45 

56. U 


31 

30.66 

2,0.11 

23.17 

\ 

29 

28.93 

28.30 

24.37 

5 


12.99 

12.88 

11.69 

6 

6 

6.00 

：».98 

5.(；2 

1 

7 

7.00 

6.99 

6.72 

II 1 

f 1 

U —"V \ DSP Ay) 

305.05 

264.00 

189.41 

#1—1 

S ' 1 

-(1 k 0 )• ： l)SP t (y) 

391.69 

瓜 26 

5U.9.S 


在上述三种几何统汁项中•参数 a 的确定通常是采用事 
先指定的或者在建模过程屮估 M_ 的方式获得的。通过后一 
沖方式所建立的模带，被称为曲线桁数族 ( curved exponential 
family , CEF ) 模型 （ H _ er , 2007), 如果采用事先指定方法 
获取 a •学 t 们通常会推荐分別尝试 a = 0. 25 和 a = 0. 75 ，这 
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往往可以获得比较理想的结果。而一个更规范的建议是从 
a -0.1 幵始,“然后逐步尝试增加 a 的值•直到模型的对数似 
然估计值不再增长” （ ( ^ oodrcau ， Handcock ， Hunter , Butts 
Morris , 2008:17)。 在这一过程中需要记住 的是： 就上述 
三种几何统汁项而言，〃值越大，网络统计值就越大^ 
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第3节 | 本章小结 



本章从历史的视角考察了 ERGM 的发展历程 。 ERGM 
模型发轫于1959年的简单随机图模型，历经50年的发展, 
现在的，模型已经能够将高序依赖性条件纳入其分析框架 
中。 ERGM 术语是在简单随机图模型和 〆 模型提出之后被 
采纳的，但由于 ERGM 家族具有良好扩展性•能够包含之前 
已经形成的这些模型。因此•在 ERGM 发展阶段的中期，学 
者们采纳了 ERGM 这个术语来界定 ERGM 所属的广义统计 
家族，实际上•公式 2.6 和公式 2.7 中所表示的模型形式就表 
征了整个 ERGM 家族。 下一章 将着重描述一个复杂 ERGM 
的建模过程。 





建立一个有效的指数随机图模型 
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基本上，所有的模型都是错误的•但其中有些是有 

效的 。 

-博克斯和德雷拍 (Box Draper . 1979:424)， 

引自博克斯和德雷柏 (Box &■ Draper . 2007) 

数十年来，网络科学家一直致力于改变一种现状，即现 
有的统计网络模型（如简单随机图模型）在解释真实社会网 
络的结构特征方面无法取得良好的效果。而马尔科夫依赖 
假设的应用及发展，可以帮助研究人员在统计网络模型建立 
的过程中，引入更为宽泛与复杂的依赖性假设•这一点对于 
研究人员展现、解释以及顶测所观测的社会结构是十分有益 
的,.虽然，指数随机图模型 （ ERGM ) 与基于二数据的逻辑 
回归模型所依赖假设条件有所区别，但两 t 在模型的解释 t 
的确具有较大的相似性。即.网络的连线被视为一种输出 
(不再被视为输人）•而网络的成员属性以及结构特征有助于 
解释、预测一条连线形成的概率 （ Hunter , Goodreau ^ 
Handcock ，2008) 0 

接下来这部分将展示一个复杂指数随机图模型的构建 
过程。在模型构建之初，首先通过探索性分析•识别观测网 
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络的特征，并且获取在模型构建过程中具有重要影响意义的 
成员信息。指数随机图模型的构建过程是从简单随机图模 
型开始的，此时，简单随机图模型仅考察网络的密度指标；随 
后 • 通过添加主效应 （main effects ) 和交互 （ interaction ) 统计 
项的方式将网络成员的属性特征纳入到模型中来.该步骤完 
成后将会形成一个二元独立性模型；最终，儿何统计项将作 
为主效应和交互统汁项的补兗被纳入到模型中来 • 弥补前述 
模塑在获取网络结构特征上的不足•从而形成一个新的依赖 
性模型。另外•在构建模型的过程中•本章也会穿插介绍针 
对模型拟合优度评价、模型诊断工具与策略以及模型结果的 
解释等内容。 '' 

本书的附录 A 部分(可以在线获取）包含了一个可用于 
复制分析过程的 R 命令列表•具有编号和标记的代码都可以 
从附录 A 中获取本书中凡是标注了 “ C'ommand r’ 的地方. 
对应附录 A 中标注为 “Command 1”的代码•利用该代码可以 
复制命令运行的结果。需要注意的是，由于本书中用于执行 
分析任务的软件是开源的•因此 •这些 软件并不是一成不变 
的本书后续部分包含的对应软件及软件包的一些命令集 
可能需要根据软件版本的变化时进行凋整。通过阅读相关 
命令的帮助文档，我们就能够了解这些命令变化的情况。 
在本 t 以及下一章节中存在少数的情况，书中段落部分可 
能会包含一些命令，这些出现在段落义字中的 K 命令是用 
courier 字体来 书写的 ；如果文字带有下划线 • 读 f 就需要用 
特指的文件名称或者其他信息替换这些文字。例如，命令 
° read , pa j ( 'data file ')” 就提示读者在使用该命令时•应采 

用一个数据文件的真实名称来替换 file 这个词。 
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第 1 节 I 软件获取与准备 


多种软件包都可以用于统计网络模型的估算 • 包括 PS - 
PAR ， Multinet , R - statnet * RSiena ， 以及 Pnet(Shumate 8*. 
Palazzolo ， 20 ] 0) 。下面的分析就是利用 R-st at net 包来实现 
的， R - statnet 是用 R 建立指数随机图模型的一个软件工具 
集，这个工具集的开发者人员列表可以在 slatnet 的网页上查 
至 lj ( http：//st at net . csde . Washington . edu / about _ us . shtml) 。 R 

是一款免费的软件•它可以通过统计计算网站所提供的 R 项 
目获取，其网址是: http :// www . r - project . org /。 R 软件的定 
位是作为一个供开发人员使用的平台，开发人员能够轻松地 
在 R 架构的基础上开发并发布适合统计分析的软件包。用 
户除了需要安装 R 之外•还需要安装 statnet 套件.因为该套 
件是独立于 R 核心架构的。顾名思义， R - statnet 套件是由 
statnet 团队所开发的，该套件包括 ergm ， network , sna ， 以及 
networkr ^ ynamic 等多个软件包。此外， R - statnet 套件还囊 
括了一系列为 statnet 套件提供支持的软件包.包括 robust - 
base , Martix , lattice ， trust，nlme 以及 coda 包，这些包都是 
由 statnet 团队之外的人员（或团队）开发的，这其中每一个包 
都包含一些特殊的公式、函数以及有用的术语，这对于幵发 
指数随机图模型而言是 I •分有益的。这些软件包的帮助文 
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档可以通过在 R 提示符之后输入 help( package) 获得，注意 
需要将 package 转换为拟使用的软件包的名称。本文所展示 
的分析部分是在 R 第 2.15.2 版本下完成的，同时也使用了 
statnet 套件的 3.01 版。 

想要安装•可以通过在 R 下使用软件包安装菜 
单•或者在 R 提示符之后输入下列代码实现： 

install.packagesC' statnet ') Command 1 

该命令将会从存储 R 包的众多资源库中选择一个资源 
库作为安装 stamet 软件包的来源库。这些资源库也被称为 
••综合 R 存档网络 ” (romprehensive R Archive Network ， 简称 
为 CRAN ) ，该网络分布在世界各地 ( http ：// cran . r - project . 
org /) 0 每一个 CRAN 站点都包含相 M 的资源，这些资源包 
括 R 软件包以及文捫 d 如果已经安装过 sta I net 套件.则可 
以用 update . statnet 命令对当前的 statnet 套件进行更新 . up ¬ 
date . statnet 命令也包含在 “Command 1 ”（命令1 ) 中 。 

statnet 套件安装完毕之后，在每次开始使用 R 软件时. 
我们还需要导入 statnet 套件。因为•只有那些被导入到 R 
内存的软件包才能运彳 h 导入 statnet 套件的实现步骤•可以 
通过在 K 提示符后输入如下代码 实现： 

1 ibrary( ' statnet ') 


Command 2 
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第2节 I 数据获取 


本章的分析部分将会使用一个网络数据集•该数据％可 
以从美闺国家 城镇卫 生官员协会 （ NAC ' CH ()) 网站获取•该数 
据也可以从 CRAN 上通过 T 载 R 包的方式获得。下面的操作 
步骤_之前的操作步骤相似。首先;.安装并打幵 “ ergmJwris ” 
包进向获取数据：随后.利用 install . packages ( ! ergraharris ') 
命令安装数据;接下来利用1 ibrary ( 1 ergmharris ’ ） 命令导入 
数据。在 statnet 套件和其他 R 软件包中还包含一些其他的数 
据集•这些数据集也会被用 到; 通过在 K 提示符后输入如下代 
码•可以观察当前的 R 列表中有哪些可以获得的数 据集： 

data ( ) Command 3 

在输入上述命令后•一个新的窗口会弹汗显示 R 中可获 
得的所有数据集的列表•这个列表会根据所安装的数据包的 
差异有所变化。 R 能够支持将各种格式的网络数据导人。 
例如，在 Pajek 网络软件中保存的文件是以 .paj 或者 .net 为后 
缀的文件•这些文件就可以利用 read . paj ( )函数导入。又 
如，在同一网络中，被保存为边列表形式的数据也可以在 R 
中作为矩阵格式被导入。 

当网络数据被导入 R 后•我们还需要根据导入数据的类 
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軋对扦1关文件进行转化，使其转化为特定网络数据类®，或 
苔是在 K 语境下的网络数据类型 （network class )。 在 K 提 
示符之后输入 class(data name ) 就可以检查导入数据类喂。 
如果反馈结果不是 “ network ” •那么，在使用 statnet 套件进行 
网络模 ® 构建之前•就需要将该数据转化为一个网络类型。 
数据转化方式依据数据格式的 不同存 在着差异 • M 简单的方 
法"]'以使川命令 as , network(data name ) 将数据转换为网络 

类沏数据，将不同数据类型转化为 M 络对象的具体做法可 
以参见布茨 ( Butts ，2008) 的相关论著。 

作这一章后续部分将会使 用的 NACVHO 数据集.该数 
据集是一个针对全美地方卫生机构领导人之间的沟通关系 
网络的数据集。该数据是针对2010年 NACCHO 目录下全 
部的地方卫生机构 （ LH [如 ) 逬行问卷调奄后获取的 ( htip ： ^ 
www . naccho.org about / LHI )) ，问卷调杳的内容涉及 f 解 
地方 U 生机构的组织结构、财务状况、领导体制、人员配备以 
及在地方层面都开展 r 哪些健康项目等问题 。在 r 的提示 
符之 f 输人 “Command 4”(命令4 ) 所示的命令，可以打开在 
R 包 1 H crgmharris 数据集中的 LHD 网络数据。 


data(lhds) Command 4 

/ i ： 数据导人之后•可以在提示符后键入这个网络对象的 
名称, “ lhds " •以检查该数据是杏被正确导入了。 

lhds Command 5 

”('ommand 5”（命令5 > 输出的结果是对该网络对象 
( lhds ) 的描述性统 i 十.包括网络规模 （ vertices ^ 1 283 ) .是否 
为有向网络 （ A「ect ed = FALSE )• 该网络有多少条边 U = 
2 708 ) •以及该 M 络的其他相关信息。接下来输岀的是网络 
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成员的属性变量名称（即节点的属性名称）•在本书中•节点 
属性是包含在网络对象中，作为其构成的一部分来使用。就 
本例而言•这个由1 283家地方卫生机构组成的网络存在五 
种节点属性 ( 又可以称为网络成员属性）: state (州 ）、 nutrition 
(营养项 H ) 、 hivscreen (艾滋病筛查项目）、 popmil (辖区人口） 
和 years (领导 M 职年限）。这些属性的含义 如下： 
state (州 ） ：地方卫生机构所属的州。 
nutrition ( 营养项目） ：利用 二值变量表示地方卫生机构 
是否幵展了营养相关的项目 . nmn t b n = Y 表示幵展•而 nu - 
trition = N 则表示未幵展。 

hivscreen ( 艾滋病筛查项目） ：利用 二值变 M 表示地方卫 
生机构是否开展了艾滋病筛查项目， hiv Screen = Y 表示开 
展•而 hivscreen = N 则表示未开展。 

popmiK 辖区人口） :地方 卫生机构所辖的人口（百万人 ） B 
years ( 领导职年限 ） ：地方卫生机沟的现任领导的履职 
年限. 该数据是一个分类变量•包括四类数值 ：魄职 年限为1 
至2年•则 ycars =0 :魄职年限为3至5年，则 years = 1 ；履职 
年限为6至10年•则 years =2 ; 最后，履职年限为10年以上 • 
则 years =3 c 

与古德鲁和他的同事所做的一样 ( Goodr ⑸ lien aU 2008)， 
我们可以通过 “('ommmul 6”（命令 6) 获得史加完整的网络信 
息概要以及网络成员属性特征信息(表3.1)。表: U 所 M 示的 
网络信息的槪嬰首先包括了对一般性网络信息的描述 • 加网 
络规模、密度、是否为有向网络（例如 ， directed = FAUE ) ;在 
上述一般性网络信息之后•是对该网络对象所包含的五种厲 
性特征的描述性统计。通过对这些属性特征的统计，结果® 
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示大多数地方卫生机构都执行艾滋病筛査项 H (Y = 804: N 
=461) 以及营养项目 （ Y =941; N =326); 对 popmiK 辖区人 
口）进行统计的结果显 示:地 方卫生机构所辖人口数量在550 
到1 010万之间•其中•密苏里州和俄亥俄州拥有的地方卫生 
机构数量最多•分别是73和72个。 


表 3.1 R 输出的网络信息概要（部分 } 


Network attributes : 
vertices = 1283 
directed = FALSE 
hyper = FALSE 
loops = FALSE 
multiple = FALSE 
bipartite = FALSE 
title = lhds 
total edges = 2708 
missing edges = 0 
non-missing edges = 2708 
density = 0.00329279 


Vertex attributes : 


hivscreen ： 

character valued attribute 
attribute summary: 

N Y 
461 804 

nutrition ： 

character valued attribute 
attribute summary ： 

N Y 

326 941 
popmil ： 

numeric valued attribute 
attribute summary ： 

Min. 1st Qu. Median Mean 3rd Qu. Max. 

0.00055 0.01722 0.04094 0.15860 0.12870 10.11000 
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续表 


state: 

character valued attribute 

attribute summary ： 

the 10 most common values are ； 

MO OH MA 1L KS NJ WI NC FL MN 

73 72 66 63 63 62 62 57 49 49 

vertex.naraes : 

character valued attribute 
1283 valid vertex names 

years ： 

integer valued attribute 
1283 values 

No edge attributes 


Network edge list matrix ： 

[a] (.2] 

[ 1 .] 2 10 

[ 2 .] 2 11 

ft 网络信息概耍表的节点厲性特征之后是边厲性特征 
统计。边厲性统计是对网络中每条边所附加特征的统计 
例如，如果网络数椐中包括 r 两个地方 II 生机构之间物理距 
离的信息•耶么.一个边属性就可以用来标识出两个地方卫 
生机构之间相距的英 里数。 本例中.地方 ji 生机构的网络数 
椐集中并不包括边属性。撼 3.1 中的最后一部分信息是网 
络的边列表 信息： 例如•边列表信息中的第一条边就是山节 
点2到节点10的连线所构成的，而该连线乂表明厂两个地 
方卫生机构之间的联系。表 3.1 中边列表信息山于校度的原 
因被 截断了 •但如果在 K 中通过运行 “rommarui 6” 则可以罾 
到完整的结果。 
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第3节 I 数据探索 


通常•在进行网络模型构建之前最好先进行数据探索工 
作。具体到网络数据，在网络模型构建和赋值的过程中•图 
形化展示以及描述统计等方法对于了解网络的结构特征是 
十分有帮助的。 ' 

复制附录 A 中标注 “Command 7”(命令 7) 的命令•会输 
岀一幅网络图形•该图形通过对节点着色的方式显示地方卫 
生机构 的厲性 特征.便于我们识别具有不同属性特征的地方 
卫生机构之间的关系模式。对州 （ state ) 特征进行着色的网 
络图 1 1咄现了明显的聚集现象，图中具有同样颜色的节点往 
往聚集在一起.说明那些处于同一区域的地方卫生机构往往 
会聚集在一起•这可能意味着一个地方卫生机构更愿意和与 
它处于同一州的地方卫生机构进行交流（图3.1)。图 3.1 中 
对艾滋病筛查项闫 （ hivscrcen ) 进行着色的网络图同样也显 
示了一些聚集现象：色调较浅的地方卫生机构聚集在网络的 
中间区域，而色调较深的地方卫生机构则似乎处于网络的边 
缘。通过对这些图的分析，我们会产生一种假 设：同 一州内 
地方卫生机构建立沟通关系的概率要高于地方卫生机构之 
间随机建立沟通关系的概率。同样地，执行同类项目（如艾 
滋病筛查项目）的地方卫生机构的领导之间建立沟通关系的 
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概率要比领导之间随机建立沟通关系的槪率高。需要注意 
的是，命令7所制作的网络图并不会产生和图 3.1 所示一模 
一样的节点的空间分布；该图利用点和连线来表示数据.但 
是每个节点的空间位置是随机的•并没有特殊的含义。 


州 



地方卫生机构网络描述 r 卫生机构之间沟通的情况；该网络图通过 t 
色的节点来表示这些地方卫生机构的特征。 

图 3.1 


通常而言，网络中的节点数量过多往往会妨碍我们识别 
网络中的重要特征模式。因此，采用仅显示网络中最大成分 
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的方法 （largest component ，最大连通的节点集合）也许能够 
在一定程度上帮助我们厘清网络结构特征模式。利用 “ Com ¬ 
mand 8” (命令 8) 可以筛选岀网络的最大成分并将其绘制出 
来。这样一来.最大成分包含了网络中的绝大多数的节点 
1 083) •图 3.2 展示了网络中的最大成分，其中，网络中 
的节点根据地方卫生机构是否开展艾滋病筛查项目的结果 
被着色。注意图 3.2 增加了一个图例，该操作可以通过 
"Command 8”(命令 8) 来实现；在 R 中，在提示符之后输入 
help ( legend ), 还可以选择很多其他参数来辅助建立和摆放 
图例。关于数据探索分析过程中的网络可视化展示的 问题. 
以及其他的操作细 P • 可以从古德鲁与其同事 （Goodreau et 
al .，2008) 、布茨 ( Butts ，2008) 以及 statnet 网站的介绍上获 
( http ： / / statnet . csde . washingtoru edu /) 0 


艾滋病筛査项目 



地方卫生机构网络中最大成分图，其中节点颜色根据地方卫生机构是 
否实施 r 艾滋病筛杳项 I 〗判定。 


图 3.2 


竹点的规模和形状是我们通过视觉来辨识网络特征模式 
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的其他方式。通常可以根据连续变量 (continuous altributes ) 或 
者定序变量 (ordinal a 11 ributes ) 的属性值来确定作点的大小; 
而根据定类变量 （nomind variables ) 来确定汀点的颜色及形 
状。在地方卫生机构网络中•数据属性类型主要为定类变 
量. 而辖区人口以及领导履职年限这两项 属性使 节点依大小 
排列。另外，网络的测量结果，例如度01可以用来标识网络 
节点的大小。度是一名网络成员在网络中与其他成员建立 
联系的数量，因此•度就可以用来表示各个地方卫生机构沟 
通关系的数量。利用 “Command 9”(命令 9) 可以进行度属性 
测量•并利用该属性来绘制网络图。但遗憾的是•通过执行 
命令9将网络节点度属性值作为节点大小的绘制方法，会使 
得图中有些节点过大•且节点之间岀现相互重叠现象•进而 
不利于对网络关系模式进行识别。 

我们可以通过调整网络中心度测量结果来缩放节点大 
小 。 “Command 10”(命令 10) 就采用了在原始中心度结果上 
除6的处理方式，于是•网络图中较大的节点表示那些与其 
他地方卫生机构有着更密切的联系的机构。网络图(如图 
3.3 所示）已经初步展现出了与艾滋病筛查项目相关的网络 
关系模式，从中可以观察到：大的白色节点比大的黑色节点 
更多，这说明，幵展艾滋病筛查项目的地方卫生机构 （ 白色节 
点)与没有开展艾滋病筛查项目的地方卫生机构（黑色节点) 
相比，通常具有更高的网络中心度，即与其他地方卫生机构 
有更多的联系。对上述现象的一种可能解释是 :那些 幵展艾 
滋病筛查项目的地方卫生机构往往处于大城市，因此，更易 
于与其他的地方卫生机构建立沟通关系。 
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地方卫生机构网络 . •中 .节 点顔色 m 据是否执行艾滋病筛迕项目判 
定•同时节点的大小依据地方 a 生机构在整个网络中的联系数量 (度) 判定。 

图 3.3 


除阁形化展示之外.付牿体网络及其 f/ 点特征进行观察 
也可以为我们提供对于网络结构特征吏深入的洞见. 进而有 
助于我们确之网络的建模策略 (Goodreau et al.. 2008)。之 
前表 3. 1已经展示了网络的规模与密度•另外，还可以利用 
"Command 1 1”（命令1 1 ) 获得每个节点的平均连接数 g: (即 
度的 f 均数）、度值出现的频次•以及儿组的分 尔情况 （参 
见图 1.5 中对于四种三元组类型的表述）。注意_这里对度的 
相关操作是以有向网络假定为前提的;如果网络是无向网 
络.则可以通过将“ gmodc” 参数设定为“ gmph ”的方式，指定 
图形为无向网络 (“digraph” 表示有向网络）。 

地方构网络中平均的度是1 . 22 (SI) 2. 90 ) 。闪 
此•一个地方卫 1( 机构与平均 1.22 个其他地方卫半:机构相互 
联系与沟通。通过观察我们发现•丨28,3个地方卫生机构一共 
f 2 708条沟通连线•平均连线数是 4.22 条.这可能比我 
们预想的要高。然而，一次单一的连接包括两个当地卫生机 
构.所以连接 A 机构与 B 机构之间的连线也会包含在 A 与 B 
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〉 triad.census( lhds, mode = "graph") 

0 12 3 

[lj 347709795 3445061 9788 1437 

除上述基础统计之外，对度、边共享伙伴 ( ESP ) 以及二元 
组共享伙伴 (【1 SP ) 的分布情况进行图形化观察•也有利于理 
解网络的结构特征。与大多数观测网络所呈现的度分布特 
征一致•地方卫生机构网络的度分布图也显示 ：观测 网络中 


之间对中心度的 i 十算中。实际上，2 708条连线中的每条连线均 
会产生两次对地方卫生机构中心度的计数•因此，在由1 283个 
地方卫生机构构成的网络中，网络的度总值为5 416(2 708 * 2)。 
总的度值5416除以1 283个节点就得到地方卫生机构平均度 
值4.22。度分布表的结果还显 示:有 58个地方卫生机构的连接 
次数为0,有117家地方卫生机构仅与1家地方卫生机构建立了 
沟通关系等。另外，三元组统计表显示共有347 709 795个三元 
组完全没有连接关系，3 445 061个三元组仅有一条连边,9 788 
个三元组有2条连边 .1 437个具有完整的三角形。 

> mean( degreeC lhds, graode = "graph” ）） 

[1] 4.221356 

〉 sd( degree( lhds, gmode = "graph")) 

[1] 2.895897 

〉 table( degree( lhds. graode = ’’graph ’’）） 
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包含大量的具有低中心度的节点和少量的具有高中心度的 
节点，当将地方卫生机构网络与具有同等网络规模与密度的 
随机网络迸行比较时（利用 Command 12,结果参见图3.4)， 
我们发现两者存在较大差异。注意 “Command 12”(命令 12) 
可能需要花费10分钟甚至更长的时间运行。 
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图 3.4 地方卫生机构网络（左)与具有同样网络规模和 
密度的随机网络(右）的度和共享伙伴分布图 


另外，观测网络(地方卫生机构网络）与随机网络在边共 
享伙伴与二元组共享伙伴的分布上也表现出差异（参见图 
2.3 中边共享伙伴与二元组共享伙伴的例子），在地方卫生机 
构网络中，更多的网络成员具有多个边共享伙伴与二元组共 
享伙伴，就这一点而言，随机网络与观测网络具有显著区别, 
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随机网络的特征是大量的 节点仪 具有笮一的共享伙伴，而貝 - 
有多个共享伙伴的节点几乎没有， 

通过对网络进行图形化展现能够帮助研究者发现网络 
中潜在的聚集模式 • IW 采用混合矩阵和相关系数方法是识別 
这种网络聚集模式的另一种方式。正如古德鲁及同事 
(2008) 所论述的•混合矩阵可以针对一个分类属性变量各层 
次之间各种可能的组合形式进行统计•从而检验相包连接的 
二元组（例如两个地方卫生机构之间的联系） ft : 连接属性 h 
存在的特征。例如•满足“两个地方卫牛.机构均执行了艾滋 
病筛查项目”条件的二元组有多少？或者满足“一个地方卫 
生机构位于密苏里州而另一个位于加利福尼亚州”条件的二 
元组有多少？根据之前的图形化展示结果可 ft I •当以州以及 
执行艾滋病筛查项目为依据对网络竹点进行着色时•网络中 
存在一些潜在的网络聚集证据 a 混合矩阵可以帮我们确认 
这种网络聚集关系的模式•当然 • 也可以利用混合矩阵去探 
索其他的网络节点属性 (Command 13,表3.2)。 

表 3.2 执行艾滋病筛查项目、营养项目以及领导履职年龄的混合矩阵 

mixingmatrlx( Ihds. ” hivscreen” ) 

N Y 

N 526 632 

Y 632 1498 

mixingmatrix( 丄 hds. ” nutrition” ） 

N Y 

N 216 648 

Y 648 1812 

> mixing 配 trix( lhds. " years ") 



0 

1 

2 

3 

0 

71 

190 

207 

283 

1 

190 

120 

259 

355 

2 

207 

259 

225 

516 

3 

283 

355 

516 

383 
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这些混合矩阵将网络中属性的层级作为矩阵的行和列。 
矩阵单元格中的数字表示矩阵中具有对应行和列厲性的相 
互连接的二元组数量。例如•在混合矩阵中•两个均执行营 
养项目的地方卫生机构之间相互连接的数量是1 812,该数 
量显示在表 3.2 中第二个混合矩阵的右下角。另外•执行营 
养项 R 和没有执行营养项目的两家地方卫生机构之间建立 
沟通关系的次数是648次•这个数值记录在混合矩阵的对 
角。本文中没有腰示针对州 （ sum >) 厲性的最全面的混合矩 
阵(共有49行乘以彳9列）•但其输出结果仍能够通过运行 
“(’ommand 13”(命令 13) 从 R 的输出窗口中观察到。通过观 
察州属性 ( state ) 的混合矩阵我们可以发 现：处 于同一个州的 
地方卫生机构之间更易建立沟通关系。 

我们也观察到了在混合矩阵中出现的一些关系模式。 
在相连的二元组中.其中均执行了营养项目的两个地方卫生 
机构建立沟通关系所构成的二元组数量为1 812个，而一家 
执行了营养项目的机构和一家没有执行营养项目的机构之 
间建立沟通关系的二元组数量是648个。该现象揭示了网 
络的另一个 特征: 执行相同项目的地方卫生机构更有机会连 
接在一起（即，在执行项目方面存在的同质性 h 艾滋病筛查 
项目的混合矩阵也显示了同样的模式•虽然没有营养项目那 
么显著，其中均执行了艾滋病筛査项目的两个地方卫生机构 
建立沟通关系的二元组数量为1 498个。然而，领导履职经 
验的混合矩阵则显示了一些差异化的连接模式，在领导履职 
经验混合矩阵中•那些更具经验的地方卫生机构领导似乎与 
所有履职年龄段的其他领导保持了较紧密的联系。例如.在 
已经形成沟通关系的地方卫生机构二元组中，包含“履职年 
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限为1至2年”经验领导（编码为 0) 的数量为751对，包含 
“履职年限为年以上”的领导（编码为 3) 的数量283对 
(38%)。相较而言，有1 543对连通二元组包含“履职年限为 
6至10年”的领导•而仅有18.3%的连通二元组包含“履职年 
限为3至5年”的领导。这样，通过计算不同履职经验类型 
之间连通的平均数，并结合作图就可以进一步去检验领导履 
职经验与网络结构之间关联关系 （Command 14;图 3.5); 图 
3.5 显示，履职经验丰富的领导所在的地方卫生机构之间更 
易于建立沟通关系。 

进一步对网络节点的特征进行观察可以为我们提供对 
网络结构更深的洞见。例如对连续型变量进行观察，如 
popmil (辖区人口/百万人） ，一 种有效的方法是检验该变量 
与中心度之间的相关性 (Command 15)。相关系数的结果为 
0.27。该结果 显示: 地方卫生机构所在辖区的人口数量越多, 
该机构与其他机构之间建立的联系就越多。另外，在一些网 
络中，也可能通过不同属性特征节点的平均连接数量来观察 
网络的结构特征 。 “Command 16”（命令 16) 利用双向表 
( two-way tables ) 来探索网络的属性数据。 

上述用于识别地方卫生机构特征的探索性分析，对于模 
型构建是十分重要的。针对地方卫生机构网络的探索性分 
析结果显示，首先，机构在地域分布上存在较为广泛的同质 
性 特征; 而机构在项目执行方面则存在中等程度的同质性特 
征。其次，具有更多丰富履职经验的领导者的机构往往与其 
他机构建立了更丰富的 联系； 同样地，所在辖区人口数量越 
多的机构往往与其他机构建立了更丰富的联系。最终，地方 
卫生机构网络的基本结构特征显著不同于具有同等规模和 
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密度的随机网络。尤其表 现在： 度分布并不是均衡的•大部 
分节点仅有较低的中心度，而少数节点具有较高的中心度。 
同样•在地方卫生机构网络中•更多的网络成员具有多个边 
共享伙泮与多个二元组共享伙伴.这一点与随机网络也有着 
较大区别•这显示了传递性和前传递性 （ pretransitivity ) 特征 
在观测网络中要比随机网络中 吏为 明显。在地方卫生机构 
网络中，同质性、非均勾的度分布以及传递性等都与现有的 
网络理论和模型构建策略是一致的。而当所有的这些特征 
都被融合进一个网络模型之下时•就能够更好地理解隐藏在 
真实觇测网络结构之下的社会力量 a 

9.5 \ 力 


1—2 yrs 3—5 yrs 6—10 yrs >10 yrs 

领导履职经历 、 

领导者的履职经验越多，地方卫生机构建立的沟通关系就越多。 


淼賊狄 wf^^Tk 


图 3.5 
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第4节 | 模型构建 


零模型 

与其他模型的构建过程相仿，统计网络模型的构建也是 
以零模型 (null model ) 为起点的。零模型是一个简单随机图模 
型•第2章描述了这个最简单的模型，该模型仅由一个单一统 

计项-网络的边或者是连线的数量 构成 （Goodreau et 

aU 2008)。公式 2.6 中一般的 ERGM 模型公式可稍作修改用 
来表述零模型： 

logit( F(y v =1 I /7 actors, Y ( tJ )) 如 [3.1] 

其中，表示以边数为变量的变化统计•而0#则表示边数 
统计项的系数。我们可以针对地方卫生机构网络构建零模 
型，釆用 “Command 17”(命令 17) ，其结果包含边数统计项的 
系数(0«_ = — 5.71272) 以及其他一些信息(参见表3.3)。 

利用公式 2.7 •我们可以根据表 3.3 中所提供的信息计算 
出地方卫生机构网络中的任意一条连线(表示机构之间建立 
沟通关系)形成的概率。该模型仅考虑了一个条件，即网络 
的边数。标注为估计值 (est imate ) 的列是专门存放模型的统 
计项所对应系数 (0) 的地方。本例中，边数统计项的系数是 
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表人3地方卫生机构网络的零模型 


Summary of model fit 


Formula ： lhds 〜 edges 

Iterations ； 20 

Monte Carlo MLE Results: 

Estimate Std. Error MCMC % p-value 
edges -5.71272 0.01925 NA <le~04 

Signif. codes ： 0 ’ 料 V 0.001 W 0.01 V 0.05 V 0.1 " 1 

Null Deviance ： 1140093 on 822403 degrees of freedom 

Residual Deviance ： 36365 on 822402 degrees of freedom 

Deviance ： 1103728 on 1 degrees of freedom 

A1C ： 36367 BIC ： 36379 

负值 （ 5.71272) • 显示网络的密度是在50%以下 • 如果边数 

项的系数为0则表示网络具有50%或者 0.5 的密度。边数统 
计项的系数为负值是真实观测网络的典®特征•很少有观测 
网络具有 0.5 或#更高的密度•欠多数网络模型的边数项的 
系数都为负值。 

需要记住的是.变化统计 （3) 代表当网络增加一条边时 
(即 I ,从0到1变化时）相关 统汁项 的变化情况 （ H_d 
(roodreau Handcock . 2008 ) G 网络的边数统计项 ( edges 
term ) 通常具有相 M 的变化统汁值.&, 1 ^ = 1因为边数统汁 
项是对网络中边数的考察•当网络增加一条边时•网络中的 
边数变化即为] 丁 •是•我们就可以像汁算逻辑回归模型一 

样，计算模型右侧的逻辑 函数: ( Field - 2009〉。 
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pen = 

=i 

n actors. 

=l()gistic(U 如） 

pen = 

=i 

n actors, 

Y' n ) = logistic (— 5.71272 * 1) 

P(Y lt 

=i 

n actors. 

、”）一 ，， —i, 一 0.003293 


正如预期的那样 ，一 条边形成的概率与地方卫生机构网 
络的密度是保持一致的，0.0033。该模型利用了标准二值逻 
辑回归模型 （standard binary logistic regression ) 采用的最大 
似然估计 （maximum likelihood estimation ) 方法。由于零模 
型是一个简单随机图模型•因此，该模型没有考虑复杂的依 
赖性假设条件。虽然零模型方法看上去是用一种复杂的方 
法来描述网络密度这个最简单的网络特征.但零模型的构建 
为未来更为复杂模型的构建提供了拟合优度评价的基准•所 
以，构建零模型也是十分有价值的。 

虽然零模型能够很好地表征所观测的地方卫生机构网 
络的密度特征、但零模型并不能很好表征观测网络的其他特 
征。以零模型为基础进行仿真网络的网络测绘图，有助于我 
们了解所构建的模型在表征网络结构特征（例如三角形）方 
面哪里做得比较好，哪里做得不好。依照古德鲁及其同事 
(2008) 的思路，我们可以利用 “Command 18”(命令18)，以零 
模型为基础进行仿真，构造100个随机网络，并绘制这些仿 
真网络所包含三角形数量分布情况。图 3.6 显示了根据零模 
型仿真所产生的100个网络的三角形数量分布。 X 标记的 
是观测网络(地方卫生机构网络）包含了 1 437个三角形，这 
个数量要远高于依据零模型仿真产生的100个随机网络中 
任意一个网络的三角形数量。很明显，这个网络中的传递性 
特征需要采用更复杂的模型来获得。 
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'• 三角形数量 

依据零模型仿真产卞的 loo 个随机网络的三角形数量， x 则标注 r 地 
nv .% 机构网络所包含的三角形数 m <• 

图丄6 

增加节点厲性 

研究人员 ft 改进拟合优度的过程中•首要营虑的因素 
是: 许点的属性是否会影响到网络中连线形成的概率 。 放到 
我们现在所讲的例 f •地方 R 生机构特征和机构 W 职领导的 
特征是否会影响到地方 E 生机构沟通关系的形成呢?描述 
性统汁结 果显示 领导履职经验以及辖 K 人 n 数 t 可能会影 
响一个地方 II 生机构沟通关系产生的数喔:。为了检验这些 
节点属性对于关系形成可能性的影响•我们将这些厲性因素 
增加到模喂中米.形成主效 ( main effects ) 模札针对地方 
卫卞.机构 W 性对网络沟通关系产生影响的主效应的假设检 
验条件可以采取如下方式 表示： 
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II , : 地方卫生机构所辖 区域人 口与地方卫生机构之间违 
立沟通关系的可能性之间不存在关联。 

H , : 地方卫生机构所辖区域人口与地方卫生机构之间建 
立沟通关系的可能性之间存在关联。 

在增加主效应统计项的过程中•根据数据类型的差异 
选择适当处理命令 I •分 t 要。莫里斯、汉考特与亨特 
( Morris , Handcock Hunter , 2008) 提供了 一 个综合歹 lj 

表，该列表包括 r stamet 套件中可获得的统计项以及这 
些统计项的具体使用指南。就地方卫生机构网络而 , Y •领 
导者的履职年限将被作为一个分类变量包含到模型屮来 • 
而辖区人 n 则被作为一个连续变量被包含到模嗤中來 
( C'ommand I 9 ) 0 

/K . statnct 包中•分类型的主效应统 i 卜项可以通过 node ¬ 
factor ^纳入到模型中来，而连续型的主效砬统计项则可以 
)11 nodecov 纳入到模型中来。选择 n ( xk * kior 参数会为模 
型增添多个统汁量 I 其中的每一个统计量分别代表具冇某种 
专门属性的 -个节 点在边的任意一端出现的次数选择 
nodecov 参数则仅为模型增添一个统汁量 • 该统计量是对构 
成连线的两个节点相关属性值的求和。例如，边0表示一个 
具有120万人「 I 的地"卫生机沟和一个具有50万人丨』的地 
方卫生机构之间建立/沟通关系•那么 • 随着这条边的增加 
而来的是•在辖区人口数的统计结果 Jl , 出现120万+ 50万 
= 170万的人口 变化。 


m 


stamei 中的参数 


㈣ 注 
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表 3.4 地方卫生机构的主效应模型 


Summary of model fit 


Formula ： lhds 〜 edges + nodecov( "popmil" ) + nodefactor (” years ”） 
Iterations : 20 


Monte Carlo MLE Results : 

Estimate Std. Error MCMC % p-value 


edges - 

6.22545 

0.06353 

NA < le-04 


ncxiecov.popmil 

0.19663 

0.01431 

NA <. le - 04 


nodef actor, years • 1 

0.14379 

0.04509 

NA 0.00143 

** 

nodef actor. years. 2 

0.27927 

0.04216 

NA < le-04 


nodefac tor. years. 3 

0.33689 

0.03983 

NA < le-04 


Signif. codes ： 0 0.001 

W 0.01 

V 0.05 V 

0.1 ' 

Null Deviance ： 

1140093 

on 822403 

degrees of freedom 

Residual Deviance ： 

36166 

on 822398 

degrees of freedom 

Deviance ： 

1103927 

on 5 

degrees of freedom 


AIC ： 36176 BIC ： 36234 


要想解释表 3.4 的结果•首先需要了解网络中任意一个 
分类变量所对应参照组的含义。在 stains 包中，一个指数随 
机图模型的默认参照组是网络统计摘要列表中所显示的第 
一组 ( 参见表 3.1). 在本例中，“履职年限为1至2年”就是领 
导萏 脱职 年限的参 照组乂 与 逻辑问 归模型相似，主效应模 
S 往往会省略这鸽参照组而直接计算出其他类型分类的估 
计结果。可以通过调整基本参数方式来改变参照组， 例如. 
我们可以觇察到 . fi •: “Command 19”（命令 19) 中针对领导履 


• 可参補 ST 卿领导賴职年限"变诚的定义 译餓 








指数随机囹模型导论 


职年限统计项所设定的参数是 nodefactor ( 'years ') ，意味着 
该统计项中除了厲性名称之外没有包含任何其他参数.因 
此•默认的分类变量中第一类就会 被向动 則为参照组。如果 
想选择最后一个分类 • B 卩•“履职年限为10年以上”，那么就 
需要增加一个值为4的基本参数，以显示该分类属性变1的 
第四类将会作为参照组•如下所示 ： nodefactor ( ' years ' , 
base = 4)，我们可以使用 “Command 20”（命令 20) 运行模型 
和总结命令 • 就像前面所示的那样。统汁摘要表将包含领导 
f 覆职年限的前三类.而省略具有最高领导履职年限的分类作 
为其参照组。需要注意的是，表 3.4 中包含四项在统计学意 
义上具有显著性的主效应项(辖 K 人 n 项及三类领导履职年 
限项）。 

使用 K 软件进行工作的一个好处是 :用户 可以直接修改 
R 软件庇层的代码，而这些代码是 i : ti 软件包的汗发人员所提 
供的这样一来，用户能很方便地设定统计概要表中所需要 
呈现的报告选项。例如，在某一领域中，如果统计检验对于 
报告逻辑回归模型是一个标准步骤•那么，用户就可以修汀 
指数随机图模墦的统计溉要函数.从而实现当统汁摘要函数 
运行时•就能得到每一个系数的统计检验结果，而不用通过 
额外的命令来产生这鸣统计检验结果信息。修改指数随机 
图模型统计摘要函数的 R 代码•可以使用 “ fix ()” 命令（参见 
Appendix B ， 在线版）。 

裉据附录 B 第一部分所提供的技术指导.我们可以修汀 
指数随机图模咽统计摘要函数的代码.并且仅仅运行命令 
19,从而获得一个主效应模型的统计摘要表•其中包含了沃 
尔德检验的统计结果。在此基础上•我们可以对统计摘要函 
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数进行编辑从 ifn 改变模型摘要表中所显示的内容，而无须对 
模® 进行重 新佔计。需要提醒的是，如果幵发人员在未来的 
statnct 包的版本中修订了相关环境，那么，通过 “ fix () ”来修 
改底层代码的命令也荇可能会改变。于是，作为获取统计检 
验结果一种替代方法，我们也可以采用 “Command 21”（命令 
21) 的后半部分所采取的方法（提 fi : 该代码只有在命令21 
前半部分代码已经运行的情况下才有 效）。 

在主效应模型中（参见表 3. 4 ) .所有的参数估汁结果都 
是显著 H . lE 向的。此结果意味 着：当 领导的履职经验史为丰 
富时•地方卫生机构之间建立沟通关系的可能性就会 增加； 
同样地，如果地方卫生机构所在地域拥有更多的辖区人口 
时.地方 U 生机构之间违立沟通关系的可能性也会增大。这 
些结果和之前采用混合矩阵和相关系数//法对辖区人 U 及 
领导履职年限进行判断的结果是一致的。 

在解释系数的含义方面，除了可以利用显著性及系数正 
负向这样的一般性解释方法之外•模型系数和它们对应的标 
准差 (standard errors ) 也可以被转化为优势比 (odds ratios ) 和 
置信区 | Vij ( confidrm、e intervals ) •作为每个厲性所对应系数的 
解释方法 (参见 Command 21以及表 3. 5 > 。为了 实现系数的 
转化，我们只需简单使用指数转化的方法(^)。通常•优势比 
会伴随着置信区间出现，主要用于描述模型估计的显著性和 
精度。参数的置信区间可以根据如下方式汁算： 

9 r >^ CI (J [3.2] 

对： P 略大或略小咚的說信区间 《例如 • 99 %的置信区间 
或90%的置信区间）•用适当的^值取代 1.96, ^的取值分别 
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是 2.56 和1.28。优势比需要根椐分类变 M 的参照组来进行 
解释。对于连续变 M 而言•优势比被定义 为：相 关变簠每增 
加一个单位吋，模型统计结果出现概率的变化情况。如果优 
势比大于1表明结果岀现概率的 增加： 当优势比小于1时则 
表明结采出现概率的减小；当优势比等于1则显示变 M ： 与结 
果之间没有联系。因此•当置信区间包含1时也显示 r 变1 
与结果 之间并 不存在 显著的 关联 u 非显著的优势比以及边 
数统汁项的优势比都可以在统计摘要表中展现•但这些内容 
一般不作解释。 


表 3.5 主效应模型参数的优势比及95%的置信区间 



Lower 

OR 

Upper 

edges 

0.0017 

0.0020 

0.0022 

nodecov.popmil 

1.1836 

1.2173 

1.2519 

nodef actor, years. 1 

1.0570 

1.1546 

1.2613 

nodefactor • years. 2 

1.2173 

1.3222 

1.4361 

nodef ac t or. yiears. 3 

1.2954 

1.4006 

1.5143 


根据主效应模型，当其他网络特征保持不变吋，具有3 
到5年履职年限的领导所处的地方卫生机构与某个地方卫 
生机构违立沟通关系的概率•是仅具有1到2年履职年限的 
领导所处机构与之建立沟通关系概率的〗.15倍。其中•参数 
95%的置信区间的范围是〗.06到1.2(3,表明机构之间关系的 
A 实值可能处于这一范围。同样地•当其他条件不变时•拥 
有超过10年履职年限领导的地方卫生机构与某个地方卫生 
机构建立沟通关系的概率•是仅拥有〖至2年履职年限的领 
导所处的机构与之违立沟通关系的概率的 1. 1倍。 

除了根据系数和标准差计算优势比以及置信区间对模 
型迸行估计之外 • K - ergm 程序也提供了许多可以用来解释 


第 3 章建立一个有效的指数随机图榱型 


1 ') 


_ M 现模型 特征的 K 他对象。通过输入对象名称的方式 
••Command 22”(命令 22) ,可以获得 R - ergm 模型中所包括的 
对象的列表 。 K frgm 的帮 助文忾对所有在描述列表出观的 
具体对象都有描述。 

在大多数情况下，对逻辑回归模型进行估计需要报告优 
势比 ( （ )ks) 的相关信息。因此•有必要将优势比以及置信区 
间所对应的列值嵌入到默认统计概要中去，附录 B 的第二 
部分提供了修改 ERGM 统计摘要表的技术指南•使统计摘 
要表能够包括优势 比和肾 信区 M 信息。表展现的正是表 
3.4 的扩展版本。 

伴随着模哨统 i 卜摘嬰表的输出结梁•我们就能够检验最 
初 假设： ^ 

:地方卫生机构所辖区域人门与地//卫生机构之间建 
立沟通关系的可能性之间不存在关联。 

H , :地方 卫生机构所辖 K 域人口与地方 li 生机构之间建 
立沟通关系的可能性之间存仵关联。 

裉据主效应模型的统计结果•拒绝 H 假设而支持 H , 
假设 ( P <0.05 )• 地方卫生机构所辖区域人口与地方卫生机构 
之 N 建立沟通关系的可能性之间存在显 著 关联。具体而言. 
假定其他条件不变的情况下•辖区内人口数 i ： 每增加100 
万,该辖区所在的地方卫生机构形成沟通关系的概轉会增 
加 1.2 艺倍 (（) R = 1.22; 95% CI =1.18- L 25), 

模增的槪率 M 测 


和零模型类似，主效应模型也可以用于预测任何两个网 
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络成员之间关系形成的概率。由于之前构建的模型已经将 
网络成员的属性纳人进來，因此.模型就可以汁算具有某种 
属性特征的网络成员之间建立联系的槪率。对于主效应模 
型的自变缺 （ predictors )『 fu 言，每一个统计项的变化统计结果 
是较为直观的，如果自变量是分类变量时，那么，变化统计的 
结果是0、1或者 2 a 如果二元组中两个网络成员均不具有 
相关属性特征•那么•变化统汁值是0;如果二元组中仅有一 
个网络成员具有相关属性特征•那么•变化统 汁值是 1;如果 
二元组中两个网络成员均具有相关属性特征.那么，变化统 
计值是2。于是•在地方卫生机构网络中 . W 个具有丰富领异 
履职经验的机构之间建立沟通关系的概率等于 nodefactor , 
years . 3的系数乘以变化统汁值2的结果•其 1 1 1 ， nodcfacior . 
vears .3 表示具 有卞富领导履职经验的机构•而变化统汁值2 
则表示 两个机 构均具有相关的厲性特征。而一个具有丰富 
领导履职经验的机构与一个刚 M 职领导所在机构建立沟通 
关系的槪宇•，就等于 nodefactor . years . 3乘以变化统计值1 •以 
此类推。依照亨特、古德#及其同事 （2008) 所提出的标识规 
则， S 符号对应一个分类型的点厲性特征变量，具体可以表 
示为： 

2,节点£与 j 均具有该属性特征 
Seal = 1 •疚点/或 J 具有该属性特征 

0•节点/与）均不具有该厲性特征 

如果自变 w 是连续型变璧， s 则表示二元组中两个地方 
卫 生机构领导均具有特征数的和 u 就地方卫生机构网络 (A i 
言，辖 K 人 U 数 M 就是一个连续型的自变量。所以，当一个 
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地方 U 生机构所在地域拥有100万人口•而另一个机构（所 
在地域)仅拥有50万人口吋•那么.人口数量所对应的 S 参数 
(U 就是 1+0.5= 1.5。 

为了 预测两个地方卫生机构之间建立沟通关系的概率 • 
例如，机构（1 〕 所在的辖区拥有200万人口 （ popmil =2), 且机 
构的领导具有7年履职年限 (ycans = 2): 机构 （2) 所在的辖区 
拥有10万人 M(puprml = 0.1), 且机构的领导仅有1年的履 
职年限 (years = 0) o 表3 . 6 ( 统计摘要表）中估计列包含系数 
需要乘以对应的各统计项的变化统计值。 


P(Y ， 


n actors. V 


.. I ^pii|inxil ^|«)j«nil I Os-i>ynirs 

logistic 

. 6:_‘ 一 「，ytvirs I Os lnyfjirs luycars I 0 iDyviirs^ 1 


P(Y n =1 I n actors, Y \,) 

= logistic ? — 6.23 * §_ 卜十 0.20 * d (X)pm ii + 0.34 * Iciyws ) 
P(Y tJ =[ I n actors. Y < ii ) 

= logistic (— 6.23 * 1 + ().20 * 2.1 + 0.34 ^ 1) 


PiYf. =1 I n actors. Y, 


logistic (— 6.08) =-—； — —^7 =0.0023 

1 + e ‘ 


两个具有上述特征的地方卫生机构之间建立沟通关系 
的概率为 0.0023 或0.23%(参见图3.7)。虽然•这个概率看 
起来很低•但需要注意的是，该网络的密度是0.0033,意味着 
原先预测的地方卫生机构网络建立沟通关系的概率事实上 
有1/3个1%。因此•这里所描述的两个地方卫生机构之间 
建立沟通关系的概率要比机构间建立沟通关系预计的概 
率低《 





々csroJICQgzJgrnJIV 

eopaaMM-tJO S^a-Isap g Co 卜 c\l 6 ro 0 II “a)u§-H>aa 

UJOPS3JH-I4-40 scualJCSP 86CCNCS8 Co 99I9PO:a>uu^-H>aa P?np-Hs(l)cc 

eopaaMu-tJO S00J50T3CSCNCN8 Co sooqll ”a)uu^>aa UN 

I rf-ldInoo>tHoo-i_ sod ► J 0 "S3PO 。 .Jy&-Hs 

*** s— SI V Htn’T 06ln00^.T LTS6rT VN §§.0 rsyA.MOrpeJapou 
*** s-31 > 93.1 C91zcvlrl osz-TCNl.T VN sus.o 69SLroCVJ.SJPQA.JSUeJapou 

**. 3IOOoI9rT lrl ssrI 8869S.I VN 98olnsdro6zxmdrsiA.JSUIeJapou 

s—31 > zsCN.tsCNLICNI 9ssrl<N OIgIOoos96T.O ITUIdodsoapou 

* .眾 s-al >CNl00d8A6I00.0 SLIOodVN 8ssod93lnCVJr91 SSP0 
aJn-PBA—al Jsddn HO : talMoq 并 06s MOMMW 

“w-pfHnwaJK 3TW ox:IP3<y4-Juow 
OOJ: suo-H4->fcJ0-M;I; 

( ： SJ^aA: )JO+JuaJl+-l<L)pou•+-( =XTUKkd,'>o30pou + sa;5pa 〜 Spql-H“exnuuoi 


-M-H 4 -tx a; p^ E JoA.JeuMns 


撇邮羥 44 锯副瑯甸较州 s^ 雎 9 .e 撇 






第 3 章建立一个有效的指数随机图模型 


H3 



0. 23% 



10万选民 200万选民 

领导具有1年履职经验 领导具有7年履职经验 

图 3.7 基于主效应模型两个地方卫生机构之间建立沟通关系的概率 


增加交互项 

节点属性说明的是每一个网络成员的个体特征，而针对 
节点属性的交互项则关注一个二元组中两个网络成员的属 
性特征 （Moms et aU 2008)。最常用的交互项主要关注的 
是 :二元 组中两个网络成员间的同质性问题（两个节点均具 
有的属性•例如都是男性)或者异质性问题(两个节点具有不 
同的属性，例如一个网络成员为男性，另一个为女性）。 

交互项会将一个二元组视为一个独立组成部分，因此， 
包含了交互项的统汁网络模型就成为了二元独立性模型。 
需要记住的一点是 :二元 独立性模型假定网络中的每一个二 
元组都是独立于模型中的其他二元组的•所以，帕姆和米歇 
尔之间具有联系的概率是独立于菲尔和帕姆之间具有联系 
的概率的，即使帕姆同时存在于两个二元组中。 

基于此前的探索性分析，如果两个地方卫生机构同属于 
一个辖区.并且都执行同样的项目，那么•这两个地方卫生机 
构之间建立沟通关系的概率似乎更高一些。也就是说•在地 
方卫生机构的网络中 • 似乎存在机构之间基于地域和项目执 
行的同质性倾向。在新模型（二元独立性模型）中我们针对 
这些属性特征采用交互项的方法来检验同质性倾向的假设 
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(Command 23) 0 

模型的结果显 示:地 方卫生机构网络在地域和项目执行 
方面的系数为显著且正向的。也就是说•两个位于同一区域 
的地方卫生机构更有可能建立沟通关系；同样，两个执行同 
一项目的机构之间也更有可能建立沟通关系。在 R 命令中 
设定“ nodemat ch ”参数的方式可以将同质性统汁项的结果导 
岀•结果如表 3.7 中高亮的部分所示。统汁摘要表中所有的 
主效应项(包括 nodefactor 项以及 nodecov 项）均显示为正向 
且显著。需要注意的是，执行同一项目的主效应统计项并没 
有被纳入到该模型中来•因为一个地方卫生机构是否执行一 
个项目仅可以获得两种可能的结果 （ Y ， N ), 鉴于目前网络有 
限的自由度，我们不可能对同一数据既进行主效应项测量又 
进行交互项的测量。还有一些其他的统计项也可以支持进 
行额外主效应和交互效应检验 （Goodreau et al . ，2009； 
Morris et al . ， 2008) 。 

根据探索性分析，我们可以得 岀： 执行同一项目的地方 
卫生机构之间具有的同质性与不执行项目机构之间具有的 
同质性是有差异的。地方卫生机构更可能与那些执行了同 
样项目的机构建立沟通关系，但反之则未必如此。也就是 
说•没有执行某一项目的机构未必会和那些没有执行某一项 
目的机构之间建立沟通关系。因此，对于同质性的估计可以 
在分类变量所包含的类别层次上进行，这就是所谓的差异化 
同质性 (differential homophily )。 通过对机构的项目进行差 
异化同质性说明•同质性项将会被区分为执行项目和不执行 
项目，可参见 “Command 24”(命令 24) 和表3.8。差异化同质 
性估计的实现方法是在 nodematch 对应属性名称的后面加 
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上 diff=T。 

如果自项目分析之初到 H 前为止.你还没有关闭或重启 
过 R 程序的话•那么，你目前的模型估计可能已经运行得十 
分缓慢了，或者已经岀现了内存分配错误的情形。针对这种 
情况•有一些策略可以帮助你在不关闭或重启 R 的情况下提 
升 R 的运行速度。首先•你可以移除不再需要的对象，为了 
实现这一步骤•你首先需要使用 ls() 命令来列出当前所有 R 
中打开的对象•从该清单中识别出你已经不再需要调用的对 
象，并使用命令 remove( object ) 逐一删除它们。一旦删除了 
这些不再需要的对象，你就可以运行 gc( )命令通过垃圾回 
收站来清理 R 的内存。最终•在对象删除完毕而且清理工作 
已经完成时，你就可以使用 memory. size( 8000 ) 命令增加 R 

内存的分配。 

需要注意的是，表 3.8 中已经高亮显示岀了每一类同质 
性统计项的统计结果。包含了差异化同质性的模型结果显 
示: 两个执行了同一项目的机构之间建立沟通关系的概率呈 
现了显著的增加态势•而两个没有执行同一项目的机构之间 
建立沟通关系的概率则不存在显著性特征。 

在某些情况下，我们可能仅需要保留执行了同一项目的 
机构之间的同质性统计项，而不必保留那些没有执行同一项 
目的机构之间的同质性统计项。这可以通过明确你想要保 
留在 nodematch 命令中的项来实现。这种情况下•我们将那 
些没有执行同一项目的机构之间的同质性统计项•标注为代 
码“ N” • 而执行了同一项目的机构之间的同质性统计项则标 
注为代码 “Y”。 由于代码 N 在代码 Y 之前，因此，利用 node¬ 
match 命令进行模型估计，两个均未执行某一项目的机构 
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(N - N ) 之间的 N 质性项位于第一位•而两个执行了同一项目 
的机构间的同质性项 （ Y - Y ) 将跫于 后面.如果仅希铝保留两 
个 执行了 同一项 I 】的机构间的同质性项.则可以通过在 
('ommand 25” (命令25 ) 中增加 keep =2参数来实现。 

i t •算同质性与盖诗化同质性项的变化统计与之前所提 
到的主效应项的汁算方法卜分类似•稍有不同的地方是•同 
质性项的变化统汁关注的是二元组，因此仅会产生两个可能 
的变化统计值,根据亨特、古德鲁及其同事 ( 2008 ) 和古德鲁 
及其同事 (2009) 所提供的方法，变化统 i 卜可以表 示为： 

同质性的变化统计： 




1 •如果 f 与 J 对分类协变量具有相同的值 
0,其他 


整异化同质性的变化 统计: 




_J 1 • 如 果厂与 ./ 对分类协变敏的某一种分类具有相同的值 
— lo , 其他 


通过计算 ra 3.7 中两个地方 ti 生机构建立沟通关系的概 
率•就可以解释如何使用二元组层次的统汁项。每一个地方 
n 机构都含彳 nft 如领导履职经验、辖区人口数量等个体特 
u ： o 除此之外.作二元组层面上，两个地方卫生机构之间在 
地域 ( 例如，两个机构都位于密苏里州)和执行营养项目方面 
也存在一致性 特征. fn 在艾滋病筛查项目上则没有体现出一 
致性特征(也汴较大的机构提供了艾滋病筛查 项目. 而小型 
机构不提供该项 H )。 该模型有 K ) 个统 汁项； 它会先显示完 
幣的模型•但只有那挫适用于相关地方卫生机构的统计项会 
w 示替代值。 m 终•模型汁算了两个地方卫生机构建立沟通 
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关系的概率(岀于简化的便利，同质性被缩写为 “ Horn ”）: 


p(y 


0 


P(Y 




1 I n actors ,） 

r ，ytwrs 谷 :l 5years « - lPyear^ 

^ lnyi-ars^ h 〕 y«irs "I ^1 UVHnm lIVMon 


logistic 


vcfirs 


*NutniHufTt 


^NutmHom 


0St;iU"Hurn ^StateHom 

7 i actors . ） 

— 9.56 * 5 •如 一 0.33 * + 0.32 * StM—„ 

0.25 * 

^NutniHom I . ().31 关 


logistic 


P ( Y,j = 1 n actors . Y' n ) 

= logistic (-9.56 * 1 -0.33 *2.1+0.32^ 1+0.25* 1 
+ 6.31 ^ 1) 

P ( Y t j =1 I r / actors , Y' lf ) =0.033 


同质性模型较主效应模型在沟通关系建立的概率上有 
较大幅度的提升.主要原因是处于同一个州这一因素导致系 
数变大。根据这一模型•这两个地方卫生机构之间建立沟通 
关系的概率提升至了 3.3%(图3.8)。 


□ □ 




10万选民 


领导具有1年履职经验 
没有执行艾滋病筛查项冃 
执行了营养项目 
位于密苏里州 




□ □ 


200万选民 


领导具有7年履职经验 
执行了艾滋病筛査项目 
执行了营养项目 
位于密苏里州 


图 3.8 基于差异化同质性模型对地方卫生机构建立沟通关系概率的估计 
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虽然模型中有许多预测变量已经表现出了统汁上的显 
著性，并且与前期根据探索性分析所观察出的模式一致•对 
于模型的效度已经进行 r 仞步的检验，但更为重要的任务 
是 • 我们还需要更为系统地 检验: 究竟佔计模型能够在多大 
程度上反映观察网络的结构特征 

模喂拟合 

统计网络模型中有几种检验模型拟合优度的方法。其 
中. 最简单的方 法是: 将模型的对数似然估计结果 （ log - likeli ¬ 
hood , L 1 J 与对应的离差的测量结果 （ deviance ，—21 丄）、赤 
池信息准则 (Akaike information criterion . AIO 以及贝叶斯 
信总标准心 n information criterion . BIO 进行比较。最 
大似然估汁值通过观测网络中真实发生联系的概率与 
的期望概率之间的差异值求和获得的 (Field • 2009 >。 

‘、 

log-likelihood = V ] [^ y In ( P ( Y U )) + (1 — ) In ( l — P { Y , j ))] 

[3.3] 

简而言之 .L L 是对网络中二元组形成连接关系的期樂 
概率和实际发生概率之间差值乘积的求和。 

例如，考虑如下一种情形•当两个地方卫生机构之间建 
立了一个沟通关系 (L = l ) •如图3.(5。之前，在差异化同质 
性模铟中估汁两个地方卫生机构之间存在沟通关系的概率 
是 0.23%( P ( y „ ) = 0.0023〉。因此，如果在地方卫生机构网 
络中，两个地方卫生机构之间存在沟通关系，耶么 • 该二元组 
对于模型的对数似然估计值的贡献是： 
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y f/ ln ( P ( Y „ )) + ( l - Y „ ) ln ( l - P ( Y <7 )) 

1 * ln (0.0023) + (l — 1) * ln(l -0.0023) =-6.07 

而如果两个地方卫生机构之间没有建立沟通关系（八= 
0) •那 么. 就说明该二元组对模型对数似然佔 汁 值的贡 献为： 

y"ln(P(y, ; )) + (1 — A ) ln(l - P ( Y tJ )) 

0* ln (0.0005) + (1 — 0) * ln(l —0.0005) =—0.0023 

可见 • 预测的地方卫生机构之间建立沟通关系的概率 1 • 
分低(0.23%) •因此，两个地方卫生机构之间建立了沟通关系 


元组的贡献度。因此 • '与预测概率与观测网络中的实际概率 
相差较大时.对数似然估汁的值就会增大 ：预测 的概率与实际 
概率相差越多 • 对数似然估计值就越高。从概念上而言.在对 
模型失拟迸行量化方面•对数似然估计十分类似于线性回归 
模型中的残差平方和 ( Reid ， 2009) 0 由于对数似然估计值 
( uj 常常是负值•直观地进行比较十分困难•因此•为 r 克服这 
种困难•研究人员采川离差 (一2 LL ) 方法来取代对数似然估计方 
法(1丄)。离差方法仅仅是在对数似然值的基础上乘以 一2 .但却 
能够确保结果是正值。离差方法也被认为是一种对模 S 失拟进 
行检验的方法，离差越大•模型失拟的程度就越高。 

离差方法可以用于对具有嵌套关系的两个网络规模不 M 
的模型直接进行比较 • 从而判断在模型的拟合优度方血，规模 
较大的模型是否要显箸地优于规模较小的模型。两个嵌套模 
型所对应的离差值之间的差异服从一个卡方分布 （ chi - squared 
distribution ) •其自由度等于两个模型在参数数量上的差异。 
这种情况下•如果主效应模型的离差为1 103 927且向由度为 
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5•而差异化同质性模型的离差为1 120 635且自由度为10•那 
么两者的差异是16 708,有10—5 = 5个自由度。我们将这个 
值与卡方分布进行比较，发现值小于 o . oom ， 说明在模型拟 
合方面，差异化同质性模型显著地优于主效应模型 （f (5) = 
16 708； p <0.0001)。 因此•为模型增加同质性统计项的做法 
显著地改进了模型的拟合度。 

与离差 （一2 L 1 J 方法不同，赤池信息准则 （ AIC ) 和贝叶 
斯信息标准 ( BIC ) 是另外两种评价模型拟合效果的方法。通 
常情况下.模型所包含的参数越多，离差的值就会越小： 

和 me 方法恰恰是考虑到这一点•通过惩罚那些包含了过多 
参数但并没有解释足够丰富信息模型的做法'因此， AIC 和 
B 1 C 方法被认为是迸行模型拟合效果评价的更好方法 
( Akaike ， 1973； Schwarz ，1978) 0 根据这种思路•这两种评 
价方法给岀了一种类似线性回归中校正判定系数 （adj usted 
R 〃) 的方法，然而，这些方法本身是无法直接解释的，但可以 
用来进行模型间的比较。在公式 3.4 中， A 代表模型中参数 
的数量， N 表示样本规模。 

A 1 C = Deviance 4- 2 p 「3 4 

BIC = Deviance + /) * ln ( /V ) 

Air 和 me 方法较离差方法更为灵活，因为它们可以用 
于比较非嵌套模型在地方卫生机构的各种模铟中•零模型 
的 AIC 是36 367.主效应模型的 AIC 是36 176,差异化同质 
性模型的 A 1 C 则下降到19 477,而改进的差异化同质性模型 
的 AIC 又下降了一些.到达19 473。因此•根据 AIC 的结果， 
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改进的差异化同质性模喂是 H 前拟合优度最佳的模喂。 

上面提到这些针对拟合优度评价的方法是适合于以独 
立性假设为基础的观测网络数据的。因此.要想评价一个指 
数随机图模型在多大程度 t 能够表征观测网络的结构 特征. 
另外一些方法通常被认为是更适合进行网络结构特征的评 
价。至此.由于零模型、主效应模咽、同质性模®是符合二元 
组的独立性假设的，因此，离差方法、 AIC 和 B 1 C 方法对于模 
型评价还是有效的：但当模咽更加复杂时，如包括了二元依 
赖性乃至其他更高阶的依赖性等假定，耶么•我们就需要采 
用基于仿真的模型拟合优度评价方法。 

一种简单的釆用模型仿真对拟合优度迸行评价的方法 
是: 首先，基于模型对单个网络进行仿真，并比较该仿真网络 
与观测网络的特征差异•接下来，利用现已构建的每一种模 
型进行网络仿真,通过这种方法 “Comrmmd 26”（命令 26) 检 
验并比较每一种模型的构建效果。 

可见通过仿真获得的网络与观测网络之间存在一定的 
差异(参见表 3.10) .例如•与经仿真所获得的若干网络（参见 
表 3.10 第二行至第六行的五种网络）相比•观测的地方卫生 
机构网络(参见表 3.10 中第一行高亮部分)在网络中具冇孤 
立节点数量 ( degree = 0 ) 和三角形数量 （ t rianglc >上表现出 r 
明显优势。虽然•这些仿真网络在反映网络结构的特征方面 
还有很大的改进空间，但需要重点关注 的是： 仿真网络通过 
不断增加统汁项做法将核心的社会过程纳人到模型的考 ■ 
范围中来 •从时 使仿真网络不断地逼近观测网络。以三角形 
数量为例，前面的五种模型均没有包含三角形数 tt 统计项，但 
是，仿真网络的三角 形数道 •从最初简单随机阁模型(零模型) 
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中的17个迅速增加到差异化 M 质性模型中的1 249个/ 


表3.1(〗地方卫生机构网络与仿真网络在边数量、 
节点中心度 (0-5) 以及三角形数量上的比较 



edges degreeO 

degreel df 

jgree2 degree.! 

degree4 degrees triangle 

lbds 2708 58 

117 

1B2 223 

226 

172 

1437 

Null 

2647 18 

97 

159 243 

276 

196 

17 

Main effects 

2660 29 

95 

166 243 

246 

202 

32 

Homophily 

2704 48 

127 

149 234 

244 

168 

1223 

Diff homophily 

2707 45 

125 

169 224 

231 

174 

1249 

Diff homophily 2 

2713 48 

112 

182 222 

233 

170 

1249 


增加如表 3.10 所示的仿真可以为我们的模型拟合效果评 
价提供额外参考。如果我们以一个模型为基础进行10次（也 
可以是其他数量）网络仿露•那么我们就可以利用“ Command 
27”(命令 27) • 比较这一组仿真网络与观测网络的统计结果差 
异例如•命令27所导出的部分结果显示， nodefactor.poprnil 
(辖区人口）网络统计值的范围是从1 285.733 至1 351.685, 而 
该数据 il { 是以之前改迸的差异化同质性模型为基础进行网络 
仿真获得的10个网络命令27导出的部分结果 如下： 


Stored network statistics ： 



edges nodecov . popm i 1 

[1,] 

2701 

1333.655 

[2.] 

2689 

1315.555 

[30 

2704 

1338.370 

[ L ] 

2710 

1351.434 

_5.] 

2711 

1345.763 

一6 •一 

2722 

1347.097 

[7 •: 

2710 

1351.685 

[8.] 

2720 

1329.238 

:9 ..j 

2717 

1287.713 

[10,] 

2719 

1285.733 


•通过 J 谢 例 F •可以了解模型仿真是如何逝过不断纳入网络的结构特征从而实 
现通近真实觇溅网络的后的的-译若注 


% 


指数随机图模型导论 


一个连续性主效应 （ nodeco v ) 统计项等于网络中连线两 
端的节点所对应的变量值的总和。我们可以通过 “CommaruJ 
28”(命令28 >获得地方卫生机构网络中辖区人口的观 测值： 

ncxlecov.popmil 

1345.815 

在所观测的地方卫生机构网络中.辖区人 M 的网络统汁 
结果是1 345.815. 而以改进的差异化间质性模咽为基础的 f 方 
真网络•其网络所显示的辖区人 P 的统计范围是1 285.733 
1 351.685。 

我们可以以主效应模型和改进的差异化 M 质性模型为 
基础分別拟合100个(或者是其他任何数量的）网络，然后利 
用 “Comnwids 29—31”（命令29 31 ), 观察这组仿真网络集 

合在三角形数 M 分布上与观测网络的差异•结梁参见图3.9。 
通过上述比较•我们可以理解主效应模型和趋异化同质性模 
型如何反映地方卫生机构网络的传递性特征 （ (ioodreau ut 
aU 2008) 0 


主效应仿真网络 改进的荦汗化同质性模型的仿 A 
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三角形的数 t 三角形的数量 

依 据主效 应模型以及改进的萆汗化间质性模咽所构 it 的100个仿 
络的三角形分布,其中， x 标记 r 地方 卫生机构网络观测到的三角形数量 a 


图 3.9 
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ih 主效应模型所产生的100个仿真网络中•仪有5个仿 
真 M 络包含 r 超过 100 个三角形 ：而采 用改进的差异化同质 
性模型进行仿真的网络则每一个网络都 产生了 500个以上 
的二角形。由此可见，差异化同质性模型是对主效应模型的 
重大改进，尽管如此.改进的差异化 N 质性模型对所观测的 
地方卫生机构网络中的三角形数量还是低估了。所观测的 
地方II生机构网络一共包含1 437个三角形（在图 3.9 中标 
注为 X ) 。 这样的结果说 明：上 述任意一个模嘲均没有能够 
很好地表征地方卫生机沟网络的传递性特征。 

将模型仿裒•纳人到网络拟合优度的评价过程•能够!£好 
地比较仿挥网络与观测网络 A •:网络特征上表观出来的 差诗。 
H 前 • K 中的 ergm 包巳经将两种网络（仿真网络和观测网 
络）的度分尔、边共享伙伴和二元组共享伙伴测量.嵌人到网 
络拟合优度的评价 H 程中米。利用这个步骤所获得的 结果* 
拟合优度的评价可以采取如下两种方式,首先.比较仿真网 
络与观测网络在每一个网络统计项上频次的差异“ Command 
,32”(命令32 )。 


表 3. II 差异化同质性模型的拟合优度评价结果 


Goodness-of-f it for degree 



obs 

min 

mean 

nvax MC 

p-value 

0 

58 

32 

58.78 

78 

0.96 

1 

117 

111 

134.76 

176 

0.12 

2 

182 

159 

190.23 

217 

0.62 

3 

223 

177 

205.45 

233 

0.16 

4 

226 

151 

188.28 

237 

0.08 

5 

3 72 

120 

152.33 

196 

0.28 

6 

104 

86 

116.71 

144 

0.22 

7 

67 

59 

84.98 

109 

0.04 

8 

35 

29 

55.45 

74 

0.02 
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续表 


9 

25 

20 

37.61 

60 

0.08 

10 

26 

15 

24.70 

42 

0.80 

11 

14 

8 

14.97 

26 

0.84 

12 

8 

2 

9.03 

17 

0.88 

13 

6 

1 

4.43 

10 

0.54 

14 

8 

0 

1.96 

7 

0.00 

15 

4 

0 

1.05 

4 

0.08 

16 

3 

0 

0.50 

3 

0.02 

17 

1 

0 

0.50 

3 

0.76 

18 

1 

0 

0.28 

3 

0.50 

19 

1 

0 

0.23 

2 

0.44 

20 

1 

0 

0.22 

1 

0.44 

21 

0 

0 

0.11 

1 

1.00 

22 

1 

0 

0.11 

2 

0.20 

23 

0 

0 

0.10 

1 

1.00 

24 

0 

0 

0.11 

1 

1.00 

25 

0 

0 

0.07 

1 

1.00 

26 

0 

0 

0.04 

1 

1.00 

29 

0 

0 

0.01 

1 

1.00 


Gocxiness-of-f it for edgewise shared partner 



obs 

rain 

mean 

max 

MC p-value 

espO 

696 

923 

1652.45 

1808 

0.00 

espl 

750 

647 

723.50 

805 

0.56 

esp2 

630 

153 

232.33 

578 

0.00 

esp3 

382 

33 

63.65 

322 

0,00 

esp4 

156 

5 

15.72 

109 

0 . 0 Q 

esp5 

56 

5 

4.50 

47 

0*00 

esp6 

25 

0 

1.04 

18 

0.00 

esp7 

8 

0 

0.32 

7 

0.00 

esp8 

3 

0 

0.09 

2 

o.do 

esp9 

0 

0 

0.05 

1 

1.00 

esplO 

1 

0 

0.03 

1 

0.06 

espll 

1 

0 

0.03 

1 

0.06 


Goodness-of-fit for dyadwise shared partner 



obs 

min 

mean 

max MC p-value 

dspO 

813034 

811054 

811708.89 

812789 0.00 

dspl 

6329 

6795 

8477.22 

9143 0.00 

dsp2 

1928 

1543 

1767.79 

1929 0.02 
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dsp3 

732 

270 

367.36 

649 

000 

dsp4 

253 

40 

66.60 

204 

0.00 

dsp5 

80 

3 

12.55 

71 

0,00 

dsp6 

33 

0 

2.03 

27 

0100 

dsp7 

9 

0 

0.36 

7 

0.00 

dsp8 

3 

0 

0.09 

2 

⑽ 

dsp9 

0 

0 

0.05 

1 

1.00 

dsplO 

1 

0 

0.03 

1 

0.06 

dspll 

1 

0 

0.03 

1 

0.06 


这些统汁摘要表均包含「>列信息 :ohs、min、mean , max 
以及 MCp value (表 3.1] ) a 统汁表的第一列列出了每个具 
体的统计项（如 degree、ESP、DSP) ; obs 列显示的是地方卫 
生机构网络中 各统计 项所对应的节点的数撤; min 显示的是 
当度、边共享伙伴或荇二元组 ft 享伙伴数遺确定时，基于不 
同模型所逑立的仿 ft 网络中的最小节点 数最； mean 显示的 
是当度、边共享伙伴或者二记组共亨•伙伴数 t 确定时_基于 
不同模型所建立的仿真网络中的节点的平 均数; rm x 显示的 
是当度、边共享伙伴 或荐二 元组共享伙伴数 t 确定时•基于 
不同模型所建立的仿真网络中的最大节点 数量； /， value 
列敁示 的是仿真网络统计值与观测网络统计值至少同样极 
端的 比率。 如果 M(’ /_，值较大•说明仿真网络与观测网络相 
应的网络特征I•分相似（或 t 说•不存在显著差异）.而如果 
M('/, 值较小则说明觇测 网络与 拟合网络在统计频次上的差 
.于是 .Mr />值小于 ().05 被解释为观测网络与仿真网络 
之间存在显著差异 •.这 也表明仿真模喂没有很好地拟合真实 
的观测数据表 3.1 i 阴影部分所有的 p 值都小于 0.05 •表明 
仿真网络并没有能够很好表征观测网络的结构特征。 

表 3.1 1中的第一个表是针对网络中心度特征的拟合优 


too 
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度评价•我们可以根据该友第一行的值发 现：真 实的地方卫 
生机构网络中包含 58 个孤立节点（即度为 0 的节 点）； 扣比 
而言，仿真网络中包含孤立冇点的平均数为 58.78 .而孤立节 
点的数敏分布范围是 32 至 78 。 从仿真网络的 W 点平均数和 
分布范围•我们发现在获取观测网络的这一特征方面，仿真 
网络的效果很好。接下来.当度显示为0时•拟合优度评价 
所对应的 Mr A 值是 0.964 兑明当网络的度固定为 0 时.观测 
网络和仿真网络之间在节点数量方面并没有显著差异。仿 
真网络能够在大多数度值情况下，很好地获取网络作点的数 
量。在观测网络中，度值为1的节点共有117个：在对应的 
仿真网络集合中.度值为1的平均竹点数为 134.76 个。 
MC p 値为0.12,显示该仿真网络很好地表征了观测网络•说 
明所观测网络与网络之间并不存在显著的差祥。通常而言 • 
在这些表格中•有越多小于 0.05 的/>值.说明网络拟合越好。 

同时•表 3.11 显示了边共享伙伴与二元组共享伙伴存在 
部分失拟的问题。基于改进的差异化同质性模型产生的仿 
真网络仅包含 f 较少的边共享伙伴数 M 和少数的二元组共 
享伙伴数量 （[) SI )=9, I ) SP = 10. DSP =11)\ 鉴于边共享 
伙伴和二元组共享伙伴指标是测量网络传递性的指标•那 
么•仿真网络在上述两个指标测鼠上所丧观出的拟合效果不 
好的现象•与图 3.9 中所反映出的三角形数 M 缺失的现象是 
一 致的。这进一步说明了改进的差异化同质性模型并没有 
很好地获取观测网络的传递性特征。 

值得注意的是 : 表中并没有显示每一个网络统计项所有 

• 不能很奵地模拟视测网络的边共亨伙伴扣二元绀共享伙 fp •的结构持征 
澤者注 
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可能的值。例如，在地方卫生机构网络中 •网络 具有】 283 个 
成员•每个节点都可以与其他节点建立最多 1 282 项沟通关 
系•但结果显示中心度的范围仅为 0 到 29: 如果有必要•可以 
采用 “Command 33” (命令 33) 查看每一个表中所有行的值， 
但那样导出的结果会特别长。 

R 中 statnet 包中的拟合优度评价过程还包含了三元组 
(triangle census ) 和捷径距离 （geodesic distance ) 测域等选项。 
这邱测量选项并没有包含在 siatnct 包内嵌的拟合优度评价 
过程中•如果想采用上述测量选项去对网络仿真效果进行评 
价,则可以釆用单独的仿真步骤。例如.可参见 “Commands 
29 — 31”(命令29 31) 对于三角形数量的测量过程。 

除了对每一个网络统计项的观测值和拟合值进行频次 
t 的比较之外•拟合优度评价的过程也可以采用 "『视 化图形 
观察的方法。图形观察//法不冉是对每一个网络统汁项的 
频次进行比较•而是对比仿真网络和观测网络 作具有 同特 
征节点数量比例上的差异，参见“ Command 34 ”（命令34 ) 。 
另外•当绘图的参数设置被更改时•图形观察方法町以用来 
比较观测网络中每一个参数的对数优势比以及仿真网络中 
对数优势比的范围。例如，之前的表已经比较了观测网络和 
仿真网络在孤立 V /点数量上的差异•其中•观测网络的孤立 
节点数为 w = .而仿真网络中孤立节点的取值范围是 
32 78;因此, 就吋以 通过绘制阁形的方法比较观测网络中 
孤立节点的比例 (4. 5 % ) 与仿真网络中孤立节点比例的差异 
(参见图 3.10 的上面一行）.图 3.10 的下面一行比较了观测 
网络中 各统 i I •项 的对数优势比与仿真网络中 所对成统计项 
的对数优势比范 [11 之间 的差异 。山于 通过对数转化形式的 
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边共享伙伴 二元组共享伙伴 

针对差译化同质性模型的仿鳥网络进行拟合优度评价。其中，黑色线 
代表观 测值; 灰色线以及筘型 I 則 t 表仿真网络的测敁结架：前三张阳敁小的 
是比例 * 后三张图显示的是对数优势比 a 

图 3.10 


指数随机图模型导论 

视图模式更易子判別模增拟合的程度.因此•对数优势比方 
法也被沿袭到了拟合优度评价的绘图中来< 


4 


0 . 


ii 



12度 





在图 3.10 中,粗黑色线代表了地方卫生机构观测网络的 
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测最结果，灰色线则代表了仿真网络在95%的置信区间时的 
测量结果。当黑色线落在灰色线条之间时•就说明仿真网络 
能够较好地代表观测网络的结构特征。在本例中•根据模型 
仿真，我们发现仿真网络能够较好地解释度中心度、二元组 
共享伙伴等特征•但是•边共享伙伴统计项则在拟合评价过 
程中存在一些问题。 

需要注意的是•原本在模型拟合优度的评价方面，表 
3.11 和图 3.10 应该表现为完全一致的.然而•该仿真网络的 
两种表现形式却显示了极大的差异。表 3.11 比较了观测网 
络和仿真网络在特定统计值上的节点频次情况•而图3.]0则 
是比较 r 具有特定统汁值的观测网络和仿真网络所对应的 
节点比例(或对数优势比)情况。 

截至 y 前•我们已经描述 r 三种进行拟合优度检验的 
策略： 

1. 利用模型统汁摘要表中所包含的 AIC ’ 和 BIC . 可以对 
模型的拟合优度进行评价 . A 1 C 和 B 1 C 的值越低•说明仿真 
网络的拟合优度越好。 

2. 以一个或多个模型为基础进行仿真，通过比较仿真网 
络与观测网络特征上的差异，理解所建构的模型究竟在多大 
程度上能够表现观测网络的基本特征（例如.中心度和三角 
形数量特征等)。 

3. R 的 st at net 包中拟合优度评价程序为比较观测网络 
和仿真网络的结构特征的测 M 提供了一系列的统计表和可 
视化工具，如 I 4 心度、距离、边共享伙伴、二元组共享伙伴、三 
元组等。统计摘要表提供 A 值作为判别手段•统计图则利用 
置倍区间作为判断手段•这些//法都能够对观测网络与仿真 
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网络的测量结果是否符合同一分布进行评价这些内嵌在 
stamet 包中的拟合优度评价与第二种策略相类似。 

虽然拟合优度评价的各种评测结果显示,改进的差异化 
M 质性模型在拟合优度的诸多"面较主效应模喂已经“了 
较大程度的提歼.但改进的差异化同质性模型并没有能够很 
好地拟合真实观测网络.这对于二元独立性模型是较为常 
见的现象;虽然最大似然估计过程找到了最有可能复制观测 
网络的模 SM 11 这个可能性仍然足比较低的 （ HunltT & ( roo 
dreau ct al .. 2008)。 拟合优度 测盪的结渠显 示 ：主效 应以及 
同质性项不能准确地把捉传递性的持征。因此，如果能芩虑 
增加一些涉及网络内在分布特征以及复杂依赖关系的统计 
项，或许能帮助我们改迸模型拟合。 

增加依赖关系项 

为了 解释观测网络存在 S 杂的依赖又•系•斯尼德斯和他 
的同事 ( 2006 ) 提出三个统计项，后来亨特和汉考特 ( 2006 > 为 
了简化说明•对此作了修订。这三个统汁 项是： JL 何加权度 
( GWD ) 、几何加权边共享伙伴 ( GWESP ) 和几何加权二元组 
共享伙伴 (（ ; WUSP ) 。 h 述三个 统汁项 从观测网络内依赖关 
系间的复杂模式出发 • 考察网络的度分布及传递性特征（关 
于这些统计项的史多信息可参见第2章）。 U 前•这些经过 
修订的统计项作为依赖性模型评价 的丁具 已经被纳人到 r 
stamei 包屮， 

之前在二元独立性模型卜.所采用的最大似然佔计方法 • 
会由于计算量过于庞大而难以在二元依赖性模型复制。如， 



第 3番 评立一个有效的指数随机图樓型 


11)5 


计算公式 2.6 的常数项往往需要对网络中所有可能的网络配置 

结果进行汇总•而网络数鼂有个，于是•对于一个仅拥有9 
个节点的网络而言.其网络的配置就会产生68 719 476 736种 
情形 （Cranmer Desmarais , 2011)。因此，二元依赖性模型 
需要使用马尔科夫链蒙特卡洛 （Markov chain Monte Carlo . 
MCMC ) 参数佔计算法来计算一个近似的对数似然 （ log - like - 
lihood ) 结果 （ Snijders . 2002) /默认条件下.最大伪似然估 
计 (maximum pseudolikelihood ) 方法被用于判别模型估计的 
初始値:接下来 . MCMC 算法从所有可能实现的网络中选择 
一个网络.从该网络中随机地选择一个二元组或者多个二元 
组，对一个二元组或者多个二元组实施从0至1或者从1到 
◦的转换•通过比较切换后的网络与切换前的网络•观察哪一 
个网络会有更好的拟合效果；接下来，算法需要考虑是接受 
转换后的新网络.还是保留转换前的网络并继续下一轮随机 
二元组选择和转换。这种“提出 （propose ) 比较 ( com ¬ 
pare ) 决定 （ decide )" 的过程会被重复多次.直至整个 
MC’MC 链全部进行完毕 （Morris et aU 2008)。 

第2章曾经讨论过 • 即使模型已经纳入 r 同质性或者其 
他统〖 I •项，模型仍可能会存在近似退化问题•该问题说明所 
构建模型尚米完全获得观测网络的结构特征。网络建模中 
近似退化现象常常表现为:苺 于模® 仿真的网络或者近乎空 
图（网络中各彳 V 点完全不联系）或者近似为全图（网络中各节 
点全部相连 ）（ 参见 Robins et al . , 2007中的图1•就是一个比 
较典®的图形实例）增加几何统计项的初衷正是要解决在 


•而不采 ) 京先的最大似然估计法 译者注 
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早期网络建模过程中遇到的近似退化问题.因此•这些几何 
参数 ( GWD 、 GWDSP 、 GWESP ) 也就成为了我们模型构建中 
的一部分内容。 

我们除了考虑模型需要纳入什么之外.还应该考虑如何 
估计模型。具体而言•我们需要考虑采用一些额外的步骤来 
降低模型无法收敛的概率.包括选择充分的 MCMC 样木规 
模、老化次数 ( burn - in ) 以及间隔 ( interval ) 等 （Goodreau et 
al . • 2008； Morris et a 1. ， 2008) 。样本规模控制 了 整个 
MCMC 链中网络分析样本的数量(之前的章 冇中描 述过马尔 
科夫链的长度）；老化次数则是指我们在选择网络最初的网 
络样本规模时，需要先排除多少个网络 x ;间隔则用来确定两 
个样本之间所跨越的样本数 M 。如果一个网络模型显示出 
了近似退化的迹象，那么，我们可以通过增大上述参数的设 
定并重新对模型进行评估来帮助模型获得收敛。需要注意 
的是，大多数用户都会发现，增加 MCMC 的样本规模会导致 
R 的模型估计时间呈小时级的增长。上述三个参数设置都 
可以在 control . ergm 命令中设置。为/■让 t . 述模型的评价结 
果可重复.我们可以在命令中加人一个种子值 （seed value ). 
这样模型每次都能被指定从同一地点开始。这个种子值的 
设置命令也被增加到 control . ergm 中来了。 

根据古德鲁及其同事的建议 (2008; 参见第2章），这里 a 
可以 t 先选择0.1，然后逐步增加直至对数似然值不再增长 
为止。因此•对包含/ I 何统计项的模甩进行拟合优度评价 
时值的设定也是从 0.1 开始（命令35)。需耍读者注意的 


^以确保网络变化过稅趋7-稳定 . 译#注 
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是，我们所使用的命令，每一个模型的计算都需要大量的时 
间才能使模型收敛(小时级别）。在 R 中•虽然在某些条件下 
并行处理是允 iT •的，但由于 R 默认地限定无论用户电脑中包 
含几核处理器仅允许使用单核，于是，对于大多数用户而言. 
往往仅能使用单核。没有先进的计算能力.模型的计算速度 
是难以提升的。针对上述问题， stamen 包的幵发团队十分努 
力地增加并行处理功能，参见 ergm 包中 R 的文档屮关于 
ergm-parallel 的 iiZ 录 （ http：//craa rproject , org web / packages / 
ergm ergm . pclf ) 0 

对拟合优度评价采用可视化展现的方式对于依赖性模 
型检验而言可能更为直观•同时值得注意的是 . A 1 C 和 BIC 
的拟合优度测量结果也经常与可视化测量结果相互印证，并 
且在《值的选择过程中起到迅速比较的作用。利用 
^Command 35”(命令35 ) 可以分别产生模型在 a 值为0.1、 
0.2、0.3、0.4、0.5、0.6、 0.7, 1以及 U 条件下的 AIC 值，分 
別为 18 019、17 943、17 875、17 814、17 759、17 732、17 700、 
17 660, 17 667。对的检验也显示出一条类似的轨迹。 
根据上述结果可知•当 a = I 时•模型拟合优度的评价值 AIC 
和 BIC 是最好的（参见上面 AIC 数值中加粗的数字）。于是 • 
我们以改进的差异化同质性模型的统计项为基础•增加三个 
当 《 = 1 时的 IL 何加权统计项•用来估计一个新的二元依赖 
性模型(参见表3.12)。 

在依赖性模型所包含的统计项中，有些系数是正向且显 
著的，说明地方卫生机构建立沟通关系的概率与地域同质 
性、执行项 H 的同质性、辖区尺口数量、领导履职年限、几何 
加权度和几何加权边共享伙伴有正向关系。模型中，几何统 
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计项的系数显示为正向且显著表 明：假 定网络其他条件保持 
不变•同时给定网络中的度分布、边共享伙伴和二元组共享 
伙伴•那么两个地方卫生机构之间建立沟通关系的概率要高 
于其随机建立沟通关系的概率。下一部分我们将通过展现 
计算过程解释这些儿何统计项是如何对关系形成的概率产 
生影响的。 

MCMC 模型诊断 

除了利用上面讨论的这些策略检测模型的拟合优度之 
夕卜，模型诊断 (model diagnostics ) 也能够辅助判断估计算法是 
否已经收敛还是存在近似退化问题•进而判断究竟是模型本 
身还是模型估计设置条件需要进行调整。模型诊断的第一 
项策略是检验在程序迭代过程中对数似然估计值的变化情 
况.我们可以通过在模型命令中输入 verbose = T •选择将该 
模型估计过程显示出来，参见 “Command 35”(命令35)。对 
数似然值的增 ms 示 r 模型初始值与经过多次迭代后拟合 
值之间的差距•较大的改进数值说明模型初始值的作用完全 
消失了。因此，当拟合过程中任意一次迭代产生的对数似然 
值 ( LL ) 变化值超出原始值的20倍时 . MCMC 的运算就会停 
止•因为上述结论陡示可能存在一个近似退化的模型，或者 
说模型初始姐与模型最终估 M •值之间存在过大的差异。通 
常 Ifii 言.迭代过程中的变化应该是比较小的•而钍伴随着迭 
代次数的增加，这种变化会逐渐减小。 

除了检验对数似然值 （ LL ) 的变化值之外•对 MCMC 诊 
断的图形化展示也会是非常有效的 (Command 36 )。 MCMC 
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诊断图显示了在模型最后迭代的阶段•模型呈现的状态（参 
见图 3.11); 图 3.11 左侧的绘图•以模型中的每一 个统计 项为 
单位，利用 MC ' MC 链作一个时间序列来展示统计项的变化 
情况，右边的绘图则显示了对应 MHVIC 链的直方图 
(Goodreau et al . ， 2008) 0 


样本统汁 



nodematch.state 



jP ^ ^ ^ ^ 


0 . 004 - 
0.002 - 
0 . 000 - 


nodematch.state 



-300 - 200-100 0 100 200 300 



gwdegree 


0 . 015 - 

0 . 010 - 

0 . 005 - 

0 . 000 - 



当 a = l 时.针对依赖性模魁中的多个统汁项进行 MCMC 诊断 & 


BB3.11 


如果模型能够收敛•那么，模型中每一个统计项的图将 
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会表现为以 （) 为中心随机变化•这里0代表观测网络对应统 
计项的统计值。本例中•大多数统计项的图表都是围绕0随 
机变化的.除7/执行营养项 g N 质性项和其他少数统计项存 
在一些偏态。总体而言•图形诊断的结果显示该模型是一个 
稳定的模型。 

对于 MCMC 诊断(已纳入 statnet 包）感兴趣的读者•可 
以参夸•普鲁玛及其同事的相关论箸 (Plummer，Best，Cowles 
Vines, 2006) .另外.对于 MCMC 诊断的更一般的信息可 
以参考考尔斯和卡琳的评述 (Cowles Carlin， 1996)。 
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如果不希望通过先验的方式选择 a 值.我们也可以通过 
模型估计过程茯得最佳 a 值。这种通过投 ffl 估计选择 a 值* 
而不是通过先验拟定《值的方式•被称为曲线指数族模型 
(curved exponential family models * (’ EF ) 0 利用 “Command 

37” (命令 37) 可以使用 CEF 模型尝 试对 模型进行重新估计。 
需要注意的是•有吟人认为•堪于之前我们已经分析过的诸 
多模型的拟合效果为基础选杼 a 的 过程， 也可以作为估汁 
CEF 模型 a 值的一种替换方式。 

C ' EF 模型中对于何统汁项 a 的估 i | •值显示在对应的 
几何 统汁项 之后。本例中 •几 何加权度对应的最佳 a 值.在 
表 3. 13显示为 gwdegree . decay •对应的值是 0.838； 几何加权 
边共享伙伴的 M 佳 a 值则显示为 gwesp . alpha ， 对应的值是 
0.9451： 几何加权二元组共享伙伴的最佳《值则显示为 
gwdsp . alpha ， 对应的值是1,822。表 3.13 高亮显示了上述三 
个统计项所对应的最佳 a 值。 

二元依赖性模型与 C ' EF 模型在协变 t 的大小上还是存 
在-些差异的。与二元依赖性模型相比， CEF 模型的 AI (' 和 
BIC 两项测量结果都降低了 •显示模型拟合优度有了提升。 
我们如果将二元依赖性模咽与 CEF 模遛均 纳人表 3.11 进行 
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比较，就可以比较具有不同网络结构特征的模型.对于网络 
拟合优度评价结果的影响 (Commmul 38•参见表3.14)。 

表 3.14 地方卫生机构网络与模型仿真网络在网络拟合测量方面的差异 


edges degreeO degreel degree2 degree3 degree^ degree5 triaiigie 


LHD 

2708 

58 

117 

182 

223 

226 

172 

1437 

Null 

2647 

18 

97 

159 

243 

276 

196 

17 

Mam effects 

2660 

29 

95 

166 

243 

246 

202 

32 

Homophily 

2704 

48 

127 

149 

234 

244 

168 

,1223 

Diff homophily 

2707 

45 

125 

169 

224 

231 

174 

1249 

Diff homophily 2 

2713 

48 

112 

182 

222 

233 

170 

1249 

Dependence 

2589 

26 

129 

207 

254 

207 

177 

1151 

CEF model 

2652 

54 

135 

218 

195 

198 

150 

1306 


网络仿真结果 显示： 不同模型在网络仿真效果上存在差 
异，从结果而言,简易的模型包含三角形数量较少，而 CEF 模 
型的仿真网络在三角形数量方面表现最为出色；另外，三个 
二元独立同质性模型（同质性模型、差异化同质性模型以及 
改进的差异化同质性模型）在仿真网络的总边数方面表现得 
较好，其中.改进的差异化同质性模型在仿真网络的度分布 

rt 

方面表现得最好。然而•上述结果似乎表明并不存在单一的 
最佳模型能够拟合网络的全部特性.即便是模型仿真效果最 
佳的模型也并不意味着就能够很好地拟合真实的观测数据。 

经过100次网络仿真实验后，我们发现差异化同质性模 
型、依赖性模型以及 CEF 模型均会低估观测网络中的三角形 
数量.即，通过模型仿真构建的网络所包含的三角形数量均 
低于观测网络中实际包含三角形数量(该数量在图形中表现 
为 X ) (Command 39,图3.12)。然而，基于依赖性模型和 
CEF 模型进行仿真的网络所包含的三角形数量更接近于观 
测网络中的三角形数量•其中， CEF 模型是在各方面最为接 
近观测网络的。在100个仿真网络中•依据依赖性模型和 
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CEF 模型进行仿真获得的三角形数量均没饤观测网络中的 
三角形数量多:仅有1个 （’ EF 模型仿真的结果为1 437个三 
角形；因此•虽然上述两种模型较二元独立性模型的仿真效 
果更为优异，但两者在对地方卫生机构网络的传递性特征方 
面并没有表现得特别出色。 

另外.对于中心度、距离、边共享伙伴、二兀组共享伙伴 
等特征的可视化展现 •也敁 示出依赖性模喂4 CKF 模型作提 
升网络拟合优度方面的差异.参见 “Cmmmmd 10”（命令 10). 
图3.13 0 上述两个模型在网络仿真的效果方面显示出与地 
方卫生机构网络很大的相似性.不过 . CEF 模沏在中心度特 
征的把握上更接近地方卫生机构网络。 

模型选择 

通过比较前述七种模型(零模型、主效应模型、同质性模 
型、差异化同质性模型、改进的差异化问质性模型、依赖性模 
型以及 C E F 模型）的多个统计和图形化拟合优度测量指标， 
我们 发现: CEF 模型有最佳的网络仿真 效渠。 在模型构逮过 
程中，对于网络仿真效果提升影响最大的地方源于之前模型 
的两个改进 : 增加同质性统计项•即考虑具有相似特征（州、 
项目）的地方卫生机构之间建立沟通关系的影响；以及增加 
依赖性统计项 • 即考虑度分布特征以及传递性特征对地方卫 
生机构之间建立沟通关系的影响。当然•除了对上述模型进 
行整体的拟合优度测量以及仿真效果的图形化展现的方法 
之外，对于较小的网络可以对网络构建过程中不同阶段的模 
型拟合度进行测量。这种分解的方法十分有利。对于像地 
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方卫生机构网络这样规模较大的网络而言，想通过可视化观 
察方法来识别出同质性统计项对仿真效果的影响是 h 分困 
难的 ( C'ommand 41 •图3.14)。 



地方卫生机构观测网络 
(LHD) 


主效应模型仿真网络 
(Main effects) 


O 



同质性模型仿真网络 
(Homophily) 


曲线指数族模型仿真网络 
(CEF) 


图 3.14 地方卫生机构观测网络以及三种模型的仿真网络 


虽然通过同质性模型和 CEF 模型获得的仿真网络在结 
果上十分相似.但值得注意的是, CEF 模型在执行项目机构 
之间的聚类模式上表现得与观测的地方卫生机构网络极为 
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相似。由于 CEF 模型在 AIC 和 BIC 指标以及仿真网络拟合 
优度方面表现出了优势•因此 . CEF 模型就更有可能被选择 
作为最终采纳的模型。如图 3.14 那样的一张图或者如表 
3.15 那样的一张表•就能够展示模型的构建过程.这种方法 
不仅可以用来阐述模型的发展历程，也可以作为最终模型选 
定的理由。 

依赖性模型的解释 

对依赖性模型的同质性统计项进行检验的结果是显著 
的 • 如执行艾滋病筛查项目、执行营养项目以及同处一个辖 
区等。两个均执行了艾滋病筛查项目的地方卫生机构之间 
建立沟通关系的概率•是网络中其他机构之间建立沟通关系 
的概率的 1.23 倍。另外•地处同一个州对于沟通关系的建立 
也存在显著的影响 （ OR =137.4; 95% CI = 114.3— 165.2)。 
同样，两个均执行了营养项0的地方卫生机构之间对于沟通 
关系建立概率的影响也是显著的，两个执行了营养项目的地 
方卫生机构之间建立沟通关系的概率是两个均没有执行营 
养项 【目 的机构之间建立沟通关系概率的 1.21 倍 （95 %CI = 
U 1 —1.32)。表 3.15 概括了四个模型的发展历程•展示了模 
塑系数的估计值以及标准差；根据用户需求的情况，上述表 
还可以包含优势比及置信区间等参数。 

一旦 GW ( IL 何加权)统计项被增加到模型中来 • 预测任 
意两个网络成员之间关系形成的槪率就变得复杂•原因在 
于 :对儿 何加权项的变化统计进行计算和解释比较困难。以 
几何加权度项为例•网络中每增加一条边 • D ,( y ) 和 fW 30 
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表 3.15 零模型、主效应模型、改进的差异化 
同质性模型以及 CKF 模型的统计摘要表（部分 } 




I Sfcl) 



•\w/ 

Main 

K fleets 

/ )/ f Itrrntia! 
Hamuf>hily 2 

CEF 

Etlgo.s( constant) 

-r>. 71(0.02) 

— 6.23(0.06) 

-9.56(0.11) 

-9.12(0.77) 

Main effects 

Popu!ation( millions) 


0.2(K0.01 ) 

0. ： S ： i(0.02) 

0.23(0.0 ： i) 

Years experience 

1—2 


Ri fi rc do . 1 

Rcftrc'nce 

Reft n na 

3—5 


0.1 K 0.05) 

0.18(0.05) 

0.13(0.04) 

6—10 


0.28(0.04) 

0.32(0.04) 

0.24(0.04) 

11 + 


0.3-1(0.04) 

0.35(0.04) 

0.28C0.01) 

Homophity 

Slate 

{.'(mkIiK - t.s milrition prpgnmi 
('onducts HIV si-refiiin^ 



6.31(0.08) 

0.25(0.05) 

4.92(0.09) 

0.2K0.1H) 

St ructural terms 

GWD 

(；WESP 

GWDSP 




LI 1(0.18) 

0.97(U.0 ： i) 

-»).()«(0.08) 

Fii 

AH' 

36367 

；^6176 

19473 

17015 

B1C 

36379 

36234 

19566 

17178 


项作为公式 2.9 右侧加权度求和的部分•将会被 D ,( y )-\ 
和 D , + ,(： y ) + ： l 项取代。当网络其他因素保持不变时，为了 
检验网络中每增加一条边对于网络图形形成概率的影响•我 
们需要将网络的新旧度值(增加一条边前后网络的度仇 ） 代 
人到公式 2.8 中来，计算网络中图的优势比 （ Hunter , 2007 ) 。 
读者如果有兴趣进一步了解如何通过代入法计算模型儿何 
加权度的变化统计结果，也可以就下列问题参考亨特的论著 
( Hunter ，2007) : 


P (y。 = 1 、 tlfler 
P ^ 0 = 1 ) fjrfart 


= exp {^( 1 一 n } 


[3.5] 
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需要注意的是，/"(八=1)‘是 actors , V ； ) 
的简写形式。由于网络新增了一条边.于是，与该边相连的 
两个诗点的中心度都会有所增加•增加转而变成了 0[ ( 1 — 
n ，+ ( l — 2007)。 因此 •几 何加权度的变 
化 统计就可以表 示为： 

&撕, =( 1 - d + ( 1 — d [3.6] 

值得注意的是•当中心度增加时， （1 —f u )' 呈几何级下 
降。所以•如果是正向 a 显著的•那么，对于所有/和^ 
中心度值而言，边的对数优势比也会 增加； 不过，当/和 j 中 
心度值已经很高时•对数优势比的增加速率就会下降；当到 
达玷 一个临界点时•即 y 已经达到一个高中心度的阶段后， 
对数优势比的增长 tk 会趋于平稳并保持一个常数。对于一 
个较小的《而言，网络常常会更快就出现这种平衡趋势（参 



— a = 1.0 — a =0. 8 - - a =0. 4 — a =0. 2 

当 a 的取值不同时.节点 H 度为 n 与不同屮心度值的节点 J 之间建立 
联系的对数优势比的变化情况 


图 3.15 
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见图3.15)。 GW [) 网络 的统汁 结果对于中心度赋予的权重 
越高，网络中具有高中心度的节点的统计值就越大。变换统 
汁的趋势表明.在具有低中心度的节点之间•增加一条连线 
的倾向是最强的。 

几何加权边共享伙伴 ( GWESP ) 与几何加权二元组共享 
伙伴 (G WDSP ) 对于整体网络结构的变化的影响更为复杂。 
因为，网络中每增加一条边不仅会改变边共享伙伴 （ bP ) 也 
会改变二元组共享伙伴 （ DSP ) 的数量•不仅涉及相关节点而 
且包括与这两个节点相关的网络中全部的节点。对变化统 
汁值受 GWESP 和 GWDSP 何种影响感兴趣的读者.可以参 
考亨特的论著 （ Hunter ，2007)： 

= ( 1 — e a 卜 [3.7] 

^ i ； wTKi ' = ( 1 — ^ [3.8] 

在地方卫生机构依赖性模型中，当 a = 1.0 时•对应的计 
算结 果是： 

(1 — e a ) = 1 一 〆 l = 0. 63 

可以(将上述结果）代入公式 3.6 和公式 3.8, 计算三个条 
件项的变化统 计值： 

&; wi ) =0.63 ’ J +0.63’ 

8 (;wesp = 0,63" 汾 
&； wi«p — 0.63 ,;<rJ 

显示了两个节点 / /之间建立一项连接，且这两 
个节点的中心度均为0时的对数优势比增加得 最多； 随着两 
个节点/ 和 _；的联系数量增多.联系之间的对数优势比的增 
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加幅度就会大幅下降 （ HimRT ， 2007)。同样地，假定网络中 
其他节点之间的关系保持+变，两个特定网络成员之间建立 
联系的概率也可以使用 GWESP 和 GWDSP 的变换统计来计 
算。随着 (; WI )、（; WDSP 和 GWESP 的变化统计值的增加 • 

网络的对数优势比呈现下降趋势的现象•可以被称为“异配 
倾向” （antiprefcrential attachment ) ( Hunter . 2007) 0 

一般而言，对 (iWIX GWDSP 和 GWESP 系数的解释和 
对其他模型系数的解释是一样的。一个几何统计项具有正 
向 li 显著的系数可以解 释为： 当网络中其他因素保持不变 
时，两个任意给定节点/ /之间建立联系的概率将比这两 
点之间随机发生联系的概率要大；同样地 •一 个负向且显著 
的系数可以解释 ：两个 任意给定节点/ 和/ 之间建立联系的 
概率将比这两点之间随机发生联系的概率要小；一个非显著 
性的系数则可以解释 为：当 其他因素保持不变时•在许点/ 
和/ 之间建立联系的概率较变换之前并没有显著的变化。 

虽然这些系数看似很简单，但变化统计结果却能反映更 
深层次的含义。正如前面所描述的•变化统 it 目的在于：通 
过观察疗点/和 j 之间增加一条连线对 (Hunter 8- Goodreau 
et al . . 2008) 整个网络统汁值变化的影响情况(参见第2章公 
式 2.9 至公式 2. 11 ) 。考虑到网络中增加一条边对于整个网 
络的共亨伙伴分布的影响，我们在对 （; WESP 和 GW [) SP 系 
数进行解释时就需嬰格外注意•避免过度解释这两个系数。 
根据亨特的方法 （Himter • 2007:第5部分）•应当明确对于 
GWESP 和 (； W 1) SP 系数的解释的基础在于“假定网络没有 

其他变化因素需要考虑.以及所有其他的模型效果均已考 
虑” ( Hunter . 2007：227) 0 
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M 终.由于 DSF 测量的是连接了或未连接的二元组共享 
伙伴的情况 • ifii ESP 则仅测 M 那鸣连接了的二元组共享伙伴 
的情况•因此.一个值得重点关注的地方 是:我 们需要单独看 
这钱增加到模型屮的统汁项•也要将他们合起来看。如果模 
型中仅包含 ( iWDSP 而不包括 GWESP •那么•最终的系数值 
会同时 受到相连以及不相连的共享伙伴分布的影响《如果 
模型中仅包含 GWESP 而不包括 （; WDSP ， 那么，最终的系数 
值仅受到相互连接的二元 组共享 伙伴分布情况的影响。如 
果 C ; WESP 和 GWDSP 同时被考虑 • C ; WESP 仍是考虑或控 
制连接二元组共享伙伴分布情况.但允许 GWDSP 考虑未连 
接的二元组之间的共享伙伴分布。 

模型中增添了 GW (几何加权)统计项，也就增加了需要 
利用模型进行预测的信息量。例如•如同之前情形•对两个 
地方卫生机构建立沟通关系的概率进行预测时，一个地方卫 
生机构拥有 1 宇 M 职经验的领导 （ year S =0).10 万辖区选民 
(popmil = 0.1 ) •没有执行过艾滋病筛査项目 （ hivscreen=0) • 
但却执行了菪养项目 (nutritional )； 另一个地方卫生机构拥 
有 7 年履职经验的领导 (year S =2). 200 万辖区选民 （popmil 
= 2 ) ，执行过艾滋病筛查项目 （ hivscreen=l). 也执行过营养 
项目 （ nutrition^ 1 )。 利用主效应模型预测这两个地方卫生 
机构之间建立沟通的概率为0 . 0023，而利用差异化同质性模 
型预测这两个地方卫生机构之间建立沟通关系的槪率为 
0.033 。 想要釆用依赖性模型预测两个地方卫生机构建立沟 
通关系的概率时，我们不仅仅需要知道两个网络成员的属性 
特征，还需要知道二元组中每一个节点所各自具有的中心 
度、边共享伙伴数量以及二元组共享伙伴数量。此前已经获 
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得的 GW1)、GWESP 和 GWIXSP 的变化统计值将会与网络节 
点厲性的系数及变化统汁值一并纳入到模型 中来： 

1)(Y" =1 | n actors. Y t = logistic (— 10.07 * 8 如 

+ 0.2() * S,,"— + 0.14 * & + 0.25 * I— 

十 0.30 * + 0,19 * SniVHom + 0. 1 8 * S ntitriliiinl lorn 

+ 5.02 * 8„MrH44.. + 0.19 * 8(,wi. ~h 0.96 * Sc^Ea* 

一 0.04 * Sr;wnar) 

上述汁算过程获得的模型预测值"了以代入模型•预测某 
些特定情形下，网络新增一条边的槪率《由于模型已经包含 
了众多的统计项，因此•在下面的汁算中，我们仅选择显示那 
吗在计算概率过程中发挥作用的统计项。案例1重新审视了 
两 t 地方11生机构建立沟通关系的概率•使用主效应模型的 
预测结果为0,0023或者0.23%•而使用差异化同质性模型的 
预测结果则为 0.033 或者3.3%。由于依赖性模型包括了度、边 
共享伙 伴和二元组共享伙伴等结构性统计项•因此•我们必须在 
计箅过程中提供两个地方卫乍机构的上述结构性统计值。 

案例1 : 一个位干密苏电州的地方卫生机构•其领导具有 
1年的 W 职经验.该机构所厲辖区拥有 1() 万选民•该机构没 
有执行过艾滋病筛查项目•但执行过营养项 目； 另一个位于 
密苏里州的地方卫生机构，其领导具有7 年的履 职经验，该 
机构所_辖区拥有200万选民•该机构执行过艾滋病筛查项 
I J 和营养项:这两个机构各自的中心度为3和4,以及0个 
边共享伙伴和3个二元组共享伙伴。计算过程 如下： 

P ( =1 \ ?i actors, V" ) = logistic (— 10.07 * 1 

+ 0.20*2.1+0.25* 1+0.18* 1+5.02* 1 
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+ 0.19* (0.63 1 + 0.63*) H - ().96 ^ 0.63° - 0.04* 0.63” 
P ( y „ =11，/ actors . Y ' n ) = logistic (— 3. J 7) 

P ( y =1 I " actors , Y :,) =0.040 

案例 2: 两 t 位于俄勒 ㈧ 州的地方卫生机构的领导均具-有 
10年履职经验•两家机构所属的辖[ X 均有 2.5 万选民•均执行了 
艾滋病筛查项目和营养项目，其各自对应的中心度为2和 U ft 
有1个边共享伙伴和2个二元组共享伙伴。计算过程 如下： 

P ( Yjj =1 I ?/ actors , Y ' n ) = logistic ( —10.07 * J + 0.20 * ()•(.)「) 
十 0.30 * 2+ 0,19* 1+0.18* 1 +5.02* 1 
+ 0.19 * (0.63 2 +0.63 1 ) 4-0.96 * 0.63 1 
-0.04 * 0.63 2 ) 

P (Yjj = 1 I ;/ actors ， Y 、) = logistic (— 3.38) 

P ( y i; =1 I ;/ actors . Y \,) =0.033 

案例 3 :两个位于加利福尼亚州的地方卫生机构的领导 
均具有10年履职经验.两个机构所属的辖区均有200万选 
民•均执行了艾滋病筛査项目和营养项目.其所对应的中心 
度为2和4•另包含1个边共享伙 ff •和2个二76组共享伙伴。 
汁算过程 如下： 

P ( V (； = 1 • ;/ actors - Y ) = logistic (— 10.07 * 1 +0.20 * 1 
+ 0.30*2+0.19 ^ 1 +0.18* 14-5.02^ 1 
- f - 0.19 * (0.63" - {- 0.63 1 ) 4~ 0.96 * 0.63 1 — 0.04 * 0.63“） 
PC/ij =\ 1 n actors , V , ; ) = logistic (— 2.59) 

P ( Y tJ =11；/ actors ， y , ; ) =0.070 

这些案例的计算结果给我们提供 r 观察地方] 1 生机构 
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建立沟通关系网络的新视角。例如•辖区人口规模的大小因 
素并不是孤立存在的；相反•当它与机构二元组中两个机构辖 
区人口相乘时.它能使沟通关系产生的概率发生巨大变化;案 
例2和案例3仅仅是调整了两个地方卫生机构辖区人口规 
模，但网络中建立沟通关系的概率从3.3%急速增长到7.0%。 

预测 CEF 模型的概率更加复杂•因为每一个儿何统计项的 
估计是以《值为基础的。本例中模型首先计算出了一系 
列 a 值•对于 （; WI ) 而言值为 0.838 •对于 （; WESP 而言 w 值 
为 0.9.151 •而对于 GWDSP 而值为1.822。因此，我们可以利 
用这些 a 值，进而计算每一个几何统计项的基准值•并以此为基 
础最终计算出每一个几何统计项的变化统计值: 

(1=0.57 

(1 -厂” =1 — e 韻 1 =0.61 

( 1 — e ° ) = 1 — =0.84 

每一个基准值都可以代入对应公式来决定三个几何统 
计项的变化统计值： 


&;wi.» =0.57’" +0.57" 

&;WESP == 0.61 ，；，N， 

&iwua ， = 0.84’ ;wr 

于是，完整的 C E F 模型和系数就可以表 示为： 

PiYij = 1 I w actors, ) = logistic (— 9.12 * 8 如 

+ 0.23 * d, x ,pmii 十 0.13 * d 3 r>y«ritrs + 0.24*& 

lOytwrs 

+ 0.28 * d +0.21 * 8 H I\%crmiHnm + 0. 1 9 * S— m 
+ 4.92 * 8 鑛 Horn +0.11 * S(；WD + 0.97 * SgWESP 
— 0.8 * Sgwiep ) 
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于是•上面的三个案例所预测的概率也会被 it 算 出来： 
案例1 :一个 位于密苏里州的地方£生机构•其领导具有 
】年的履职经验•该机构所属辖区拥有10万选 K ， 该机构没 
有执行过艾滋病筛查项目.但执行过营养项 H ;另一个位于 
密苏里州的地方卫生机构，其领导具有 7 年的魄职经验.该 
机构所属辖区拥有200万选民，该机构执行过艾滋病筛查项 

i 

目和营养项 目； 这两个机构各自的中心度为 3 和 4 •以及 0 个 
边共享伙伴和 3 个二元组共享伙伴。 H - 算过程 如下： 

P(Y U =\ | n actors. Y x it ) = logistic (— 9.12* 1 +0.23 * 2.1 
+ 0.24 * 1 + 0.19* ] +4.92^ 1 + 0.11 * (0.57 3 
+ 0.57*) +0.97 * 0.6J° -0.8 * 0.84 s ) 

P( Y u = 1 ! // actors, Y t ) = logistic (— 2.33) 

P(y (J =1 I n actors* Y' n ) =0.088 

案例 2 :两个位于俄勒 M 州的地方卫生机构•两个机构的 
领导均具有 10 年履职经验•两家机构所属的辖区均具有 2.5 
万选民，均执行了艾滋病筛査项目和营养项目，其各自对应 
的中心度为 2 和 4 •具有 1 个边共享伙伴和 2 个二元组共享 
伙伴。计算过程如下： 

P(Y 0 =1 | n actors% V", ) = logistic (— 9.12 ^ 1 + 0.23 * 0.05 
+ 0.28*2 + 0.21 * 1 十 0.19* 1 + 4.92* 1 
+ 0.11 * (0.57 2 + 0.57 4 >+0.97 *0,61? 

— 0.08 * 0.84 2 ) 

P( Y,, =1 I actors. Y' n ) = logistic (— 2.65) 

P(Y 0 = 1 I « actors. ) =0.066 

案例 3 : 两个位于加利福尼亚州的地方卫生机构•两个机 
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构的领导均具有10年履职经验•两家机构所属的辖区均具 
有200万选民，均执行了艾滋病筛査项 [1 和营养 项目. 其所 
对应的中心度为2和4•另包含1个边共享伙伴和2个二元 
组共享伙伴。计算过程 如下： 

P \ Y tJ =1 I w actors , ) = logistic (— 9.12 * 1 +0.23 * 4 

+ 0.28*2 + 0.21 * 1 +0.19 * 1 +4.92 * 1 
+ 0.11 * (0.57 2 + 0.57') + 0.97* 0.61' - 0.08* 0.84 2 ) 

P(Yjj =1 I " actors ， V " ) = logistic (— 1.74) 

P ( Y ^ = 1 I actors , Y \ } ) =0.150 

用约束条件逭新定义模型 、 

到 H 前为止•模 型建构 中关注的主要问题是：哪些类型 
的统计项应该纳入到模型中来.以及模型估计过程中有哪些 
推荐的设定条件1另外，在解决模型建构过程问题时，如果 
能对可能产生的仿真网络范围进行限定也将有利于某些研 
究问题。例如•在网络数据凋研中•限定可能被提名人员的 
数遺等。在这种情况下•限定仿真网络中节点的最大中心度 
将会是有效的做法。这些限制条件既可以是限定度的最大 
值或者最小值•也可以是限定节点具有同样的中心度•还可 
以是限定竹点符合某个度分布，抑或是仅限定网络的边数。 
对于这些限定条件更多的细节可以参考莫瑞斯和他的同事 
们 (Morris et al .. 2008) 的资料•也可以通过在 R 提示符中后 
输入 R - ergm 帮助文档获得这些限定的定义。由于我们对于 
任 M 给定网络潜在发生作用的社会力量知之甚少，因此，往 
往不建议在获取观察网络的方式上采取限定措施。然而如 
果有必要，这个函数是可获得的。 
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第〗节针对有向网络的研究 


与之前介绍的无向网络相似.有向的观测网络在度分布 
以及传递三角形数量等特征上经常是不同于随机网络的& 
除此之外•莫雷诺在他 L934 年的著作中也提到过有向的观 
测网络更易于产生互惠关系 （ Moreno , 1934,】953)。为了验 
证这狴网络特征.我们需要建立一个随机的有向网络 • 并利 
用该随机网络和波莫纳湖 d^ke Pomona ) 网络进行比较•关 
于波莫纳湖的网络数据已经包含在 R 的网络包中。 ll : 是由 
于该数据已经包含在了 R 的数据包中，因此，我们可以很方 
便地将波莫纳湖网络数据导入 R(Comnumd 42 )。 波莫纳湖 
网络数据展现了搜救行动中组织间的交互关系，更多关于该 
数据的信息可以从该数据包中获得 （ hu p : //cran. r-project. 
org/web/packages/ network/ network, pdf) 0 

在波莫纳湖网 络中， 从节点 A 至节点 B ( A — B ) 之间的一 
条连线表明 A 组织在其报告中提及与 B 组织之间存在交互 
关系。整个网络包括了 20 个组织以及组织间的 148 条有向 
链接•网络密度为 0.39 。 根据对图 4.1 的初步观察，波莫纳湖 
网络(左侧）和与其具有同样规模和密度的随机网络（右侧） 
之间存在结构上的差异•这种差异酷似我们讨论的无向网络 
及其随机网络之间存在的差异，即观测网络中心由一群紧密 
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连接的组织群体构成 • 观测网络的外围则由一群稀疏连接的 
组织群体构成，而随机网络图中群体之间链接的分布似乎更 
加均匀 （Command 43) 6 


波莫纳湖网络 随机网络 



图 4.1 波莫纳湖网络与随机网络的图形比较 


当进一步对 比观顶 彳网络与随机网络的入度与出度分布 
时发现.波莫纳湖网络有一个右倾的人度分布模式•这一点 
十分类似于地方卫生机构 ( LHI )) 网络的度分布特征（参见 
图4.2)，而随机网路与期望的情况一致•人度分布表现为更 
加均匀的入度分布模式;波莫纳湖网络的出度分布则没有显 
示岀十分清楚的模式，仅有一点右倾，而随机网络则是接近 
于均匀分布 （Command 44) 0 

有向网络反映岀的另一个特征是交互性（例如 A B ) 和 
非对称(例如 A — B ， A — B ) 关系同时存在。我们可以利用二 
元组测量方法对波莫纳湖网络和随机网络在上述结构特征 
进行数量上的比 较，从而揭示 这种网络结构特征 （Command 
45,结果参见图4,3)。 


指数随机图模型导论 



0 5 10 15 20 0 5 10 15 20 


入度（波莫纳湖网络） 入度（随机网络) 



0 5 10 15 20 0 5 10 15 20 

出度（波莫纳湖网络） 出度（随机网络） 

图 4.2 波莫纳湖网络(左侧）和随机网络（右侧）的度分布比较 


波莫纳湖网络 随机网络 



图 4.3 波莫纳湖网络（左)和随机网络（右）的二元组类型分布比较 
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与无向网络相比，有向网络存在更多的三元组类型（参 
见附录 C )。 因此，波莫纳湖网络和随机网络在三元组的各种 
类型所对应的频次上也存在差异。波莫纳湖网络在003类 
和300类的三元组上频次更高 （Command 45;参见附录 C :)。 
这两个类别分别代表三元组中三个节点完全不相连或者完 
全相连的状态。出现较高频次的003类和300类三元组现 
象，与之前在波莫纳湖网络二元组测试中体现出的高频次的 
交互二元组与空二元组情形类似(参见图 4.3), 因为一个300 
类三元组需要由三个交互二元组构成，同时•一个003类三 
元组也需要由三个空二元组构成 u 

250 

200 

150 

100 

50 

三元组统计 

■波莫纳湖网络 o 随机网络 
图 4.4 波莫纳湖网络（左)和随机网络（右）的三元组分布比较 



Pi 模型 

尽管 A 模型在指数随机图建模 （ ERGM ) 的发展历程中 
具有突出的地位(参见第2章）•但在此前构建地方卫生机构 
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指数随机图模型的过程中•我们没有采用模型.这是 W 为 
/〜模型是专 H 针对有向网络结构特征设计的，因此，它并不 
适合类似地方卫生机构这样的无向网络数据•但却适用于波 
莫纳湖网络。 

波莫纳湖网络的零模型统计结果显示 （Command 47), 
零模型的边统计项是显著的(上=一0.45: SE=0.11)， 对应零 
模型的赤池信息准则 （A1C) 和 R 叶斯信息准则 （B】C) 结采分 
别为 510.1 和514.0。霍兰德和莱因哈特 （Holland Lein- 
hardt , 1981) 的 p, 模型整合了四种二元组效应： （ 1 ) 边的数 
量或考虑边数量的网络密度； （ 2 ) 发送者效应 （sender 
terms) ，或者说是发出链出关系的节点厲性 ( 扩展性 ） ； （ 3 ) 接 
受者效应 （receiver ter ms )，或#说是接受链人关系的 W 点厲 
性(吸引性 ）：（4) 交互效应（互惠性）。尽管交互统计项将二 
元组视为彼此独立，但 AB 节点对与 BA W 点对之间本质 t 
是相互依赖的•因此•就可以考虑应用马尔科夫链蒙特卡洛 
(MCMC) 估计方法 （Morris ei aL. 2008)。发送者和接受者 

效应作为 A 模型构建的基础，实际上任何一个节点对既包拈 
—条发送者的链岀关系也包括了一条接受者的链入关系，因 
此，实际测 M 中应去掉一种关系从而避免信总出现重复的问 
题。在这种情况下•模型将包括边统计项、19个对应的发送# 
统计项、19个接受者统计项以及一个交互统计项•共汁40项 
统计项。需要注意的是，运行命令47的结果中包括一些统计 
项，这些统计项对应的系数值为 Inf 或 _Inf。 如果 Inf 和 一Inf 
值岀现在指数随机图模甩中•表明该系数为极大值 (Inf) 或萏 
极小值 (一Inf)。 这种情况下，很有可能说明这些组织接受了 
很少或者没有接收到联系。估计的结果中包含这些极值通常 
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会导致模型无法佔 if •离差 ftl 扣关统计结果•于是•模型拟合结 
果将尤法与零模型迸行比较。然而•通过设定参数的方法(类 
似于第3 章屮 所介绍的在 “ nodcmatch ” 命令中设定 keep 参数 
的方法）•就可以除去问题的参数•模型将会依据最适合的 
统计项进行重新估计 (Command 48，参见表 4. 1 ) 。 

表 4.1 波莫纳湖网络搜救行动中的 Pl 模型 


Summary of model fit 


Formula ： lake 〜 edges + sender 十 receiver (base = c(l ， 5. 8, 19)) 
+ mutual 

Iterations ： 20 


Monte Carlo NILE Results ： 





Estimate 

Std. Error MCMC 

% 

p-value 


edges 

0.2064 

0.5950 

0 

0.728963 


sender2 

-0.2751 

0.7544 

0 

0.715621 


sender3 

- 1.2372 

0.7678 

0 

0.108056 


sender4 

-0.4869 

0.7573 

0 

0.520725 


sender5 

0.2770 

0.7451 

0 

0.710275 


sender6 

- 0.8070 

0.7544 

0 

0.285504 


sender7 

- 1.0905 

0.7552 

0 

0.149686 


sender8 

- 2.0586 

0*8142 

0 

0.011908 

关 

sender9 

- 1.2386 

0.7662 

0 

0.106896 


sender10 

- 2.6285 

0.9610 

0 

0.006557 

** 

sender11 

- 0.9303 

0.7681 

0 

0.226636 


sender12 

- 1.7683 

0,8243 

0 

0.032645 

* 

sender13 

- 2.6256 

0.9651 

0 

0.006850 


sender14 

0.2303 

0.7601 

0 

0.762054 


senderl5 

2.0868 

0.8727 

0 

0.017335 

长 

sender16 

- 1.1603 

0.7766 

0 

0.136062 


sender17 

- 0.5686 

0.7552 

0 

0.452031 


senderl8 

- 1.4730 

0.8222 

0 

0.074078 

• 

sender19 

- 1.0969 

0.7507 

0 

0.144864 


sender20 

- 1.3131 

0.7928 

0 

0.098583 

« 

receiver2 

- 1.0747 

0.6300 

0 

0.088951 

鲁. 
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续表 


receiver 3 

0.5489 

0.6054 

0 

0.365203 

receiver4 

-1.3387 

0.6522 

0 

0.040867 * 

receiver^ 

1.0067 

0.6324 

0 

0.112336 

receiver7 

1.0823 

0.6305 

0 

0.086957 . 

rece 丄 ver9 

0.5477 

0.6042 

0 

0.365314 

receiver10 

-1.1628 

0.6943 

0 

0.094881 . 

receiver11 

- 0.6130 

0.6137 

0 

0.318571 

receiver12 

-0.9995 

0.6517 

0 

0.126026 

receiver13 

-1.1658 

0.6937 

0 

0.093757 . 

receiver14 

- 0.9008 

0.6108 

0 

0.141239 

receiver15 

- 2.9824 

0.8390 

0 

0.000432 *** 

receiver16 

- 0.8459 

0.6278 

0 

0.178724 

receiverl7 

0.1097 

0,5984 

0 

0.854678 

receiver18 

-23766 

0.8614 

0 

0.006111 

receiver20 

一 1.4664 

0.6893 

0 

0.034094 ^ 

mutual 

1,5960 

0.4144 

0 

0.000140 

Sign if. codes ： 

0 1 菁斧贅 ^ 

0.001 W 

0.01 

V 0.05 V 0.1 


Null Deviance ： 526.79 on 380 
Residual Deviance ： 375.58 on 343 
Deviance ； 151.21 on 37 


degrees of freedcan 
degrees of freedom 
degrees of freedom 


AIC ： 449.58 BIC ； 595.37 


!>' 模型的结果显示 AIC 值要小于零模型.而 A 模型 

BIC 却上升了。因此该测量结果并没有明确回答/〜模塑是 

否优于零模型。与第3章的思路一样•对干零模型 和仏模 

型分别进行模型仿真有助于我们对模型拟合优度进行评价 
(Command 4 9;图4.5)。 

图中的 X 表示观测网络中交互关系数量所处的 位置; 
川模型较零模型在获取网络的互惠性特征方面表现得更好 
一些。然而，在解释网络结构方面•久模型忽略了较发送者 
效应与接受者效应更为有用的节点属性特征。波莫纳湖网 
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零模型 


P , 模型 




U - F 零模型 ( 左侧）和 pi 模型 ( 右侧)进行】 0() 次模咽仿真之后网络中 
二元绗听包含的夂 K 关系数其屮 • X 表示观测网络中二元组所包含的 
交互关系数璧 


图 4.5 


络数据也包含组织的一些特征.包括某组织是厲于本地组织 
还是外地 组织. 组织中鹿员的人数.组织隶属情况（是属于城 
市、州、联邦还是私尺机构）以及在各时间点上组织中志愿者 
的人数图 L 6 分別川黑色勺内色显示了波莫纳湖网络中的 



♦本地 o 非本地 
图 4.6 波莫纳湖搜救网络 


141 ) 


指数随机图楼型导论 


本地组织和作本地组织 (Comnumd 5()) ,其中用颜色区分了 
本地组织和非本地组织。 

从图 1.6 中可以很明显观察到•在本地组织和作本地组 
织之间存在一定程度的分离趋势。本地组织之间高度交互 
地群聚在 一起； 而非本地组织则处于网络的外围•似乎既与 
本地组织交流也与出本地组织交流。混合矩阵方法或许冇 
助于厘清这种模式（参见表4.2)。 

表 4.2 针对波莫纳湖搜救网络中机构所处地理位置的混合矩阵 

To 

From L NL Total 

L 51 21 72 

NL 40 36 76 

Total 91 57 140 

注: L 代表本地组织 . Nh 代表非本地组织。 

值得注意的是.在混淆矩阵中的“ From ” 与“ To ” 是有特 
指的.由于网络之间的链接是有向的， 因此， 链接表示为从一 
个节点到另外一个节点的一条弧。在波莫纳湖网络的148 
条链接中 .51 条链接是从本地组织指向本地组织的，36条链 
接是从非本地组织指向非本地组织的 • 40条链接是从非本地 
组织指向本地组织•还有21条链接是从本地组织指向非本 
地组织。一般而言•无论是本地组织还是非本地组织•似乎 
都更易于与本地组织进行交流.本地组织较外地组织获得了 
更多的链入联系 (91 vs . 57)。正 是由于 网络是有向的•因此 • 
许多模型中所包括的统计项就必须进一步明确区分究 t 是 
链入关系（人度)还是链出关系（出 度）。 例如.在波莫纳湖网 
络中，本地组织具有很高的人度，于是，我们可以建立一个考 
虑组织厲地特征以及入度特征的主效应模型 （ C'ommand 
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51 ), 通过该模型就可以 发现： 本地组织比非冬地组织在接收 
到链入关系的概率上高出67%(转移概率 [ OR ]=0.33: 95% 
的置信区间 [ CI ] = 0.22 — 0.51)。表 1.3 显示了一个主效应 
模型，该模型包括了最常见边统汁项和交互统汁项.同时交 
互统计项伴随着一个 nodeifactor 参数。这个 nodeifactor 参 
数的使用十分类似之前提到的 noclefactor 参数•但该参数令 
门用于链入关系;而针对链出关系时 * 则使用 nodefactor 
参数 a 


表 4.3 在波莫纳湖网络中的主效应模型 


Sunnary of model fit 


Formula ： lake、ectfes + nodeif'actor('’Locauon") 
Iterations ： 20 


Monte Carlo MI£ Results ； 

EstJjaate Std. Error MCMC % Lower OR Upper p-vaiue 


edges 0.i288 0.1533 NR 0.8424 1.1375 1.536 

nodeifactor.Locataorj.NL - 1.1097 0.2182 NA 0.2150 0.3297 0,506 

Signif. codes ： 0 0.001 0.01 0.05 V 0.1 ” 1 


0.401 
le- 04 


Null Deviance ： 526.792 on 300 degrees of freedom 

Residual Deviance: 481 >276 ot 378 ciegrees of freedom 

Deviance: 45*515 an 2 degrees of freedom 


AIC ： 485.28 BICj 493.16 


主效应模型的拟合优度图 显示： 该模型对观测网络的 
入度、出度及二元组共享伙伴 （I ) SP ) 特征均进行了很好的拟 
合。然而，该模哦没有能够很好拟合边共享伙伴 （ ESP ) 的网 
络特征 （Command 51;图1.7)。为了更好地拟合共享伙伴 
的网络分布特征•添加儿何加权条件可能是种较为有益的 




142 


指数随机图模型导论 


02468 11 11 

入度 



02468 11 14 17 

二元组共享伙伴 


02468 11 14 17 

边共享伙伴 


图 4.7 波莫纳湖网络主效应模型的拟合优度图 

波莫纳湖流域应急响应 I •办作网络的依赖性模型（表1 . 4 ) 
包括了几何加权边共享伙伴 （ GWESP ) 和几何加权二元组共 
享伙伴 ( GWDSP >等统计项•从离差上看 （ 乂 2 ( 2 ) = 1 9. 8;户< 
0.05) •依赖性模型较主效应模型具有更好的拟合优度41从 
图形的拟合效果上来看，并没有显示岀依赖性模型较之前 
的诸多模型有显著的改进（图1.8)。在模型中追加点层次、 
二元组层次以及几何加权层次的统计项都会有助于模型拟 
合效果的提升。莫瑞斯和他的同事 （Morris et al . , 2008 ) 针 
对有向网络可能的统计项和参量归纳了一个完整列表，希 
望进一步了解可选择统计项情况的研究人员可以参考这一 
资料。 
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0 2 4 6 8 11 14 17 0 2 4 6 8 11 14 17 


城享伙伴 二 7(^ 享伙伴 

图 4.8 波莫纳湖网络依赖性模型的拟合优度图 


与地方卫生机构网络一致•有向网络的模型也可以用来 
预测一个网络中链接系形成的概率然而，在迸行预测概 
率的统计估计时•需要根据部分统汁项的特征进一步区分链 
入关系和链出关系。 


P ( Y ) — logistic 


1.78 * §咖. — 0.79 * ^ 
1.64 * 0( AK'ESH — ().26 * 


Ot^NTlSI'. (AVIjN* 


(1 —， U 




0.095^ 


可以将上述结果代入到模型中 进而预 测某些情况下 I ■办 
作关系建立的概率。 

案例1:当 ESP 为2以及 DSP 为4时•顶测从一个本地 
组织链入到一个非本地组织的概率。 


纪软3釤友名匀姝1 



±3欲 S 蔌友运嶸垆<-— 



AJ 1 淼 S 鎬友茗夺垆令，- 
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PCY ) = logistic (- 1.78* 1 —0.79 * 1 

+ J .64 * 0.095 2 — 0.26 ^ 0.095 1 ) 

P ( Y ) = logisticC — 2.56) 

P ( Y ) =0.07 

案例2:当 ESP 为2以及 DSP 为4时•预测从一个本地 
组织链人一个本地组织的概率。 

P ( Y ) = logistic (— 1.78* 1—0.79*0 

十 1.64 * 0.095 2 - 0.26 * 0.095 4 ) 

P ( Y ) = logistic (— 1.77) 

P ( Y ) =0.15 . 

案例2中建立链接的概率为这一概率较案例1中 


的7%要高出许多。上述结果显示的差异与此前在混合矩阵 
M 示的差异是一致的4兑明本地组织比非本地组织接收的链 
接多。 
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第2节 | 将二元组和网络协变量作为 

自变量 


除了在地方卫生机构网络和波莫纳湖网络中介绍的 
点层次、二元组层次以及几何层次的自变量外，统 n ‘模型 
还可以采用其他的网络或二元组属性（例如，两节点之间 
的地理距离）作为网络模型的自变量。与此前所介绍的网 
络不同.当利用其他网铬或者二元组属性作为模型的_变 
量时•模型中的自变量可以赋值•即关系所赋的值不限于 
0和 1 0 . 

举例而言 • R 中包含的科尔曼 （ Coleman ) 交友数据集 
就包含了两个交友网络子集•这两个网络数据均來源于 
20 世纪 50 年代后期，对伊利诺伊州 一 个小型高中的 73 
个男孩之间交友关系进行的调研。该调研分 K I ]在第一年 
的秋季和第二年的春季对这 73 个男孩进行了碉查。问题 
涉及“你在学校中最经常交往的同学是谁'调查结果 显示: 
/£秋季凋查时.朋友关系网呈现出两组男孩群休;而春季再 
调查时•朋友关系网络聚集为了一个单一的群体 ( Command 
53; 图 4.9) 0 

注意，在春季交友关系网络统计摘要信息表中.包含了 
一个条 ㈢ - 边属性 （ edge altrihutcs . 参见表 4. 5 阳影部 
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鮮 


春季 




图 4.9 科尔曼的交友网络 


表 4.5 春季时科尔曼交友网络的统计摘要表（包含对应的秋季边属性) 


Network attributes ： 
vertices = 73 
directed = TRUE 
hyper = FALSE 
loops = FALSE 
multiple = FALSE 
bipartite = FALSE 
total edges = 263 
missing edges = 0 
non-misslJig edges = 263 
density = 0.05003805 


Vertex attributes : 
vertex • names: 

character valued attribute 
73 valid vertex names 

Edge attributes ； 

fall ： hj' ttfj . [ilj | j | H 

numeric valued attribute 
attribute summary ： 

Min. 1st Qu. Median Mean 3rd Qu. Max. 

0.0000 0.0000 1.0000 0.5323 1.0000 1.0000 
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续表 


Network edgel 丄 st matrix: 

[1，] 15 1 
[2,] 17 1 


分）。本例中4商要信息表显示了单一的边 属性: 秋季。该属 
性的含 义是: 在秋季时.如果两个男孩是朋友•则二元组对应 
的值为 U 反之，则为0。 

为了检验秋季的朋友关系是否可以用于预测春季的朋 
友关系，我们以秋季的朋友网络作为统汁模型的预测变量来 
预测春季网络。一个仅包括边统计项的春季网络零模型，其 
AIC 和 B 1 C 测量结果分别是2 090和2 096.5, 当增加了一个 
秋季的朋友网络作为预测变量之后，模型的拟合效果出现了 

表 4.6 利用秋季的科尔曼交友网络预测春季的朋友关系网络 


Summary of model fit 

Formula ： spring ~ edges + edgecov( fail) 

Iterations ： 20 
Monte Carlo MLE Results ： 

Estimate Std. Error MCMC % Lower OR Upper p-value 
edges - 3.68276 0.09129 NA 0.02103 0.02515 0.03 Cle-04 

edgecov.fall 3.98968 0.15870 NA 39.59179 54.03741 73.75 <le-04 

Signif. codes ： 0 '***' 0.001 0.01 '# T 0.05 0.1 '' 1 

Null Deviance ： 7286.4 on 5256 degrees of freedom 

Residual Deviance ： i486.2 on 5254 degrees of freedom 

Deviance ： 5800.1 on 2 degrees of freedom 

AIC ； 1490.2 BIC ： 1503.4 
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极大的改进。结果 显示: 秋季的朋友关系对于舂季朋友关系 
的形成具有显著且正向的影响 （ C)R = 54.0 ; 95 %CI = 39.6- 
73.8)。所以，如果在秋季的科尔曼交友网络中的学生 A 已 
经显示与学生 B 建立了朋友关系•那么•学生 A 和学生 B 在 
春季时保持朋友关系的概率就是之前没有建立朋友关系的 
概率的54倍 (Command 54;表 4. 6 ) 。因此•可以说边属性可 
以与节点属性、几何加权统计项一样被纳人到模型中来。 
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本书首先是从一些网络实例开始的，如描述一个在线交 
友网络的幸福模式•以及一个由青年人构成的性关系网络中 
梅毒传播事件的事例。通过上述实例，我们认识到，在这些 
情景中，网络分析方法正在改变我们对于“关系是如何改变 
我们生活的各个方面”的理解。实际上，在早期的网络研究 
中•可视化方法以及描述性统计的方法都缺乏对网络中的关 
系模式之下所潜在的社会力量进行检验的功能。例如.在梅 
毒传播事件中青年人之间的性关系模式，就可以部分通过药 
物使用人员之间的同质性倾向特征来解释•于是，对应的干 
预策略就不仅要对药物使用行为进行干预.也同时要对青年 
之间的性行为进行干预。如果理解网络结构的目的在于增 
加或者减少网络中关系的形成•那么•洞悉网络结构之下所 
隐含的社会力量就是十分重要的环节。 

在地方卫生机构模型中，本书对同质性假设的检验仅限 
于组织特征。然而，实际上，个体的行动也伴随着同质性特 
征•例如，抽烟行为和体育活动。许多采用标准网络方法进 
行的研究发现 :在年 轻人中，吸烟者更易于与吸烟者交朋友 
( Mercken , Snijders，Steglich S - de Vries ，2009 ； Pearson ， 
Steglich ^ Snijders , 2006)。 因此，在保持其他结构特征不变 
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的情况下.网络中 M 质性特征对理解关系的形成提供了新的 
观察视角。正因为如此•本书已 经将与 行为相关的同质性假 
定正式纳人到指数随机图模型 （ KKGM ) 方法检验范畴中来。 
例如，最近德拉哈耶及罗宾斯等人 (de la Haye . Robins , Mohr 
& Wilson , 2010)汗肫的一项研究就采用了指数随机图模型 
方法•该方法在育年人交友网络的基础上增加了一个结构效 
«/: . 用于检验与肥胖疾病有关行为。德拉哈耶和他的同事发 
现: 在控制了 K 他结构影响因素（如互惠性、流行性、扩展性、 
传递闭包以及多元连接性)之后，仍发现同质性特征的存在。 
这一发现有可能会改变公共健康管理者对于应如何防治青 
少年肥胖问题的认知•该研究建议应利用同辈压力以及其他 
社交策略的方法，引导肥胖青少年进行健康饮食和参与体育 
锻炼。 

本书中描述的这些工具乜为解决许多广泛存在的、持续 
Ji 复杂的问题提供了新的思路。例 (il l ，由于在室内使用炉灶 
排放废气对人身体有害•因此•全球有30亿人口正在面临这 
种有害气休的疾病和死亡威胁•这些人主要是穷人 （ Yadama ， 
Schechtman . Biswas * Castro ChaJise ? 2013)„ 印度实施了 
一项旨在改#室内空气的干预措施， 1985 年到2000年间.给 
平民发放了数以 0* 万计的低排放炉灶。然而•根据2002年 
的一项评估报告显示，85 %的炉灶并没有得到使用，因此，这 
项干预措施被认为失败了。而通过对仅相隔10 f 米的两个 
村庄的对比研究发现.两个村庄在使用更清洁的炉灶方面具 
何惊人的差异。加图那 （ Gauma ) 忖显示有90%的居民采用 
了这种更清洁烹饪技术，而 加鼠姆 ( Jalim ) 村则仅有10%的 
店 R 采用了这种£清洁的烹饪技术 （ Frandas ， Fern , Yadama 
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& Bhatia , 2012)。对这两个村庄居 K 关系网络结构的思考. 
使我们认识到为什么在应用清洁炉灶使用上两个忖庄会具 
有如此大的差异。例如•也许在加图耶村采 川清洁 炉灶的 K 
民之间比加里姆村采用清洁炉灶的居民之间具有更紧密的 
联系如果真是这样.耶么就位该建议采取一项策略•即应 
当在那些清洁炉灶采纳率低 的忖庄 找到耶畔具有较广泛沟 
通关系的居民.然后，给这些居 R 以更加丰常的资源与技术 
支持，优先鼓励这些居民使用清洁炉灶。 

统计学家和网络科学家尽管经过了 / L 十年的 努力. 但本 
书中所描述的统计网络模型的发展和应用也才刚刚开始。 
正如斯蒂芬 • 霍金 （Stephen Hawking ) 曾描述的那样，科学 
和社会正在步入一个“复杂性的世纪，，。利用上述模型可以 
帮助我们理解与解释复杂性问题，这一点卜分重要。 记住. 
没有一个单一模型能够适合所有的网络研究，因此•无论是 
学生、应用科学家.还是其他汗始采用 统汁网 络模型进行研 
究的人们•均应该在其幵展建模初期就考虑如下 建议： 

I . 在开始进行统计逹模之前. 先利用 图形可视化和描述 
性统计方法对数据进行观察。通过直 方图 、混合矩阵以及网 
络可视化等方法对相关节点属性之间诸如||彳质性的佼式进 
行观察。至少应观察网络中的度分布以及三角形数 M 特征 
对传递性进行评估.因为.观测网络的这两个特征经常与随 
机网络有较大区別。利用直方图和统 i 卜摘要表的方式对边 
共享伙伴和二元组共享伙伴分布进行评价.这一点呵能有助 
于我们识別观测网络与随机网络在传递性模式上的差异。 
注意对传递性和其他网络结构特征的考察对于研究目的可 
能并不总是相关的.也不一定总是有效的。但正如我们仵非 
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网络的研究中耶样•研究人员在违模前应先利用探索性分 
折.逐步筛选出那吟最适合研究问题的模型和方法，与结构 
性测量方法相比•针对度分布以及共享伙伴分布的测量（确 
保随机网络弓所观测网络保持 M 等规模与密度）有助于我们 
i 只别随机网络4观测网络的差译•这一点可以帮助模型选择 
相应的变量。以上述结果为指导从而建之和精炼研究问题 
与假设，最终，指导模型的建立。 

2. 建立一 t 零模型并且评价其拟合优度。 

3 .有向模型中增加包括主效应和二元组层次属性特征 
等局部 统汁项 •从检验局部过程如何影响网络的结构。如 
果存在与主效应或者（二元组层次之间的 > 交互效应相关的 
假设，那么•首先应该增加主效应统计项.然后•增加交互效 
应统汁项;通 H 观察上述模咽中各个系数的 S 著性和方向. 
将前一阶段模型拟合的结朵与期望值进行比较，然后再修 
正。同时•在整 t 分折过程中•不 断视 察统计及图形的拟合 
优度测量结果 • 并与零模型的结果进行比较。 

1 . 以前一阶段模型拟合时发现的观测网络与随机网络 
差异为基础•如有必要•可以向模型继续增加一些结构限制 
条 d 如限定老化次数 （ l ) um - iii ) 、样 丰规 模以及本书中所提 
取的其他环境因素等。以《=0.1为初始条件. 尝试采 用多个 
ot 值，或者使用曲线指数族 ( CEF ) 策略来估计一个合适的 a 
值。利用拟合诊断以及拟合图形测量来识别模型可 
能出现的近似退化和尤法收敛问题•如觉得有必要则需要改 
进模型。检查模型统汁项对应系数的显著性和方向性•确保 
这叫统计项是符合逻辑的，片将该模塑与之前已经建立的模 
型进行图形拟合优度比较•选择拟合度最高的模型、最符合 
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逻辑的模型作为解释并报告相应结论的模型。 

5. 最终•帮助其他社会科学家建立对于网络以及统计网 
络模型的意识•如有必要则采用图形化的方式来解释模型建 
立的策略、模型的选择以及解释最终的模型。 

对于那些旨在将指数随机图模型纳入到他们日常工具 
方法中的学者而萏 . n 〖以考虑增加至少两个目前活跃的邮件 
列表 (lisuservs) •以便能够跟上这个快速发展领域的新发展。 
首先•是国际社会网络分析学会 （ INSNA ) 的邮件列表，该学 
会是一个由网络分析方法人员构建的团体.对应的邮件列表 
( S ( K ' NET ) 对于所有与网络有关的问题均开展了讨论，该邮 
件列表也是一个发现最新社会网络研究进展、各领域关键文 
献，以及了解各相关领域最活跃的研究人员的优秀信息来 
源。如何加入 SOCNET 邮件列表的说明可以在 INSNA 的 
网站上获取 （ http: www.insna.org ) c 其次， statnet 邮件列 
表也是极为活跃的， statnet 的开发人员通常会很快地对 
statnet 用户的提问作出反馈。如何加入 statnet 邮件列表的 
说明 可以在 statnet 的网站上获取 （ http://statnet.org /)。 

进一步阅读和资源 

与 statnet 相关的资料。有大量关于 R-statnct 资源可供 
学者们进一步阅读，这些资料大多数都可以在 statnet 的网站 
上获取 （ http://statnet.org/)。 2008 年 5 月的《统计软件杂 
志》专刊包括了对于理解和使用 statnet 极为有用的文章。这 
期专刊中的所有文章都可以通过网络公开获取 （ http:// 
www.jstatsoft.org/v24 /)。 最终 •statnet 的开发人员也经常 
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会参加一些网络会议•如国际社会网络分析大会以及密歇根 
大学高校校际政治与社会研究联盟 （ ICPSR ) 夏季项目 
( http ：// www . icpsr . umich . edu /) 。同时，前述的邮件列表中 
也会列岀一些其他的培训机会。 

关于 er^m 的相关资料。 2008 年 5 月的《统计软件杂志》 
专刊主要是对于 statnct 中指数随机围模咽的评价，同时也包 
含对近期指数随机图模型发展的思考， 2007 年 5 月的《社会 
网络》期刊中有一期针对指数随机图模型的专刊 （Volume 
29. 2 )， 该期包含了大量有用的文章，许多文章 都可以 

在本 B 的参考文献部分找到。 2011 年出版的 《SAGE 社会网 
络分析 I 1 朌》也包含一咚对 T 1 指数随机图模型和其他统汁网 
络模型有用的章竹。 
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在有向网络中存在16种可能的三元组构成，每一种三 
元组构成都对应了一项标识符。图九1显示了这16种三元 
组构成及其对应的标识符。 



图有向网络的三元组类型 






参考文献 


161 


参考文献 


Akaikc. H. (1973). Information theory and an extension of ihc maximum likelihood principle. 
In B. N. Petrov & F. Csaki (Rds.), SeconJ international symposium on information theory' 
(pp. 267-281). Budapest: Akadcmiai Kiado. 

An. W. (2011). Models and methods to identify peer cfTecis In J. Scott & P. J. Carrington 
(Eds,), The SAGE handbook of social netMork analysis (pp. 514-532). London, UK: Sage. 

Anderson, C. J.. Wasserman, S., & Faust. K. (1992). Building stochastic blockmodcls. Social 
Networks, !4. 137-161. 

Bames, J. A. (1972). Social networks, iddison- Wesley Module in Anthropology. 26. ) 29. 

Beatty, K. B., Harris, J. K , & Bamcs, P. (2010). The role of inter-organizational partnerships 
in health services provision among rural, metropolitan, and urban local health departments. 
Journal of Rural Health. 26, 248-258. 

Berk man, L F.. & Syme. S. L. (1979). Social networks, host resistance, and mortality: A nine- 
year follow-up study of Alameda county residents. Amerii'an Journal of Epidemiology. 
109(2), 186-204. 

Bliss. C. A., Kloumann. I. M.. Harris. K. D.. Danforth. C. M.. & Dodds, P. S. (2012). Twitter 
reciprocal reply networks exhibit assortativity with respect to happiness. Journal of Com- 
putational Science. .?(5), 388 397. 

Bollen, J., Goncalves, B.. Ruan, G., & Mao, H. (2011). Happiness is assonative in online 
social networks. Artificial Life, /7(3), 237 251. 

Box, G. E. P., & Draper, N. R (2007). Response surfaces, mixtures, and ridge analyses (2nd 
cd ). Hoboken, NJ: Wiley-lnlcrscience. 

Buchanan, M. (2002). Nexus. Small world.、and the groundbreaking science oj networks. New 
York: W.W. Norton. 

Burt. R S. (1987). A note on strangers, friends, and happiness. Social Networks. 9, 311-331. 

Butts, C. T. (2008). Network: A package for managing relationaJ data in R. Journal of Statisti¬ 
cal Software, 24 ⑻ , 1-36. 

Caulkins, D. (1981). The Norwegian connection: Eilcrt Sundt and the idea of social networks 
in 19ih century ethnology. Connections. </{2), 2R-31 

Centers for Disease Control and Prevention. (1998). Outbreak of primary and secondary 
syphilis~Guilford county. North Carolina, 1966- 1997. Morbidity and Mortality Weekly 
Refhyrt. 47(49). 1070-1073. 

Cowles, M. K.. & Carlin, B. P. (1996). Markov chain Monte Carlo convergence diagnostics: 
A comparative review Journal of the American Statistical Association. 9/(434), 883-904, 

Crannicr, S. J., & Desrnarais, B. A. (2011). Inferential network analysis with exponential 
random graph models. Political Analysis, 19( I), 66-86. 

dc la Haye, K., Robins, G., Mohr, P., & Wilson. C. (2010). Obesity-related behaviors in 
adolescent friendship networks. Social Networks, iJ(3), 161-167. 

Ennett. S. T.. & Bauman, K. E (1993). Peer group structure and adolescent cigarette smoking: 
A .social network analysis. Journal of Health and Social Behavior, 226-236. 

Erdos. P., & Renyi, A. (1959). On random graphs. I. Publicationes Mathematicae (Debrecen), 
6, 290-297. 

Field, A. P (2009). Discovering statistics usin^ SPSS (3rd ed.). London, UK: Sage. 

Frandos, A., Fern, S., Yadama, G., & Bhatia. V. (2011 ， July). Uptake of alternative energy 
technology by energy poor households in rural Rajasthan. India Paper presented at the 
lmemational System Dynamics Conference, Washington, DC. 


指数随机图横型导论 


Frank, O., & Strauss, D. ( 1 986). Markov graphs. Journal of the American Statistical Association. 
5/(395), 832-842. 

Freeman. L. C. (1996). Some antecedents of social network analysis. Connections. I9(\), 
39-42. 

Freeman, L. C. (2004). The development of social network analysis: A study in the sociology 
of science. Vancouver, BC: Empirical Press. 

Freeman. L. C. (2011). The development of social network analysis — with an emphasis on 
recent events In J. Scott & P. J. Carrington (Eds.), The SAGE handbook of social network 
analysis (pp. 26-41). London. UK: Sage. 

Goodreau, S. M.. Handcock. M. S., Hunter, D. R , Butts. C. T., & Morris. M. (2008). A slatnet 
tutorial. Journal oj Statistical Software. 24{9), 1-27. 

Goodreau, S. M., Kitts, J. A” & Morris, M. (2009). Birds of a feather, or friend of a friend? 
Using exponential random graph models lo investigate adolescent social networks. Demog¬ 
raphy, 103-125. 

Granovetter, M. (1983). The strength of weak ties: A network theory revisited. Sociological 
Theory, 1, 201-233. 

Green, L. W. (2006). Public health asks of systems science: To advance our evidence-based 
practice, can you help us gel more practice-based evidence? American Journal of Public 
Health. 96<3). 406-409. 

Hall, J. A*, & Valcnte, T. W. (2007). Adolescent smoking networks: The effects of influence 
and selection on future smoking. Addictive Behaviors. 12), 3054-3059. 

Harris, J. K., Baker, E. A., Bamidgc, E M McGee, L., Motton, F., Rose, R., Roche, J M ct al. 
(2012, March). Employment networks in a high-unemployment rural area. Paper presented 
at the International Network for Social Network Analysis Sunbelt Conference, Redondo 
Beach, CA. 

Harris, J. K., Carothers, B. J. t Wald, L. M.. Shelton, S. C.. & Leischow. S. J. (2012). Interpcr- 
sooal influence among public health leaden* in the United States Department of Health and 
Human Services. Journal of Public Health Research, 7(1), 67-74. 

Harris, J. K., Cyr, J., Carothers, B. J., Mueller, N. B., Anwuri, V. V., & James, A. I. (2011). 
Referrals among cancer services organizations in an underserved urban area. American 
Journal of Public Health. 101(7), 1248-1252. 

Harris, J. K., Luke, D. A., Burke. R. C., & Mueller, N. B. (2(X)8). Seeing the forest and the 
trees: Using network analysis to develop an organizational blueprint of stale tobacco con¬ 
trol systems. Social Science & Medicine, <57(11), 1669-1678. 

Harris, J. K., Luke, D. A., Zuckerman, R. B., & Shelton, S. C. (2009). Forty years of second¬ 
hand smoke research: The gap between discovery and delivery. American Journal of 
Preventive Medicine, 36(6), 538-548. 

Hirsch, G. B., Lev ine, R., & Miller, R. L. (2007). Using system dynamics modeling to under¬ 
stand the impact of social change initiatives. American Journal of Community Psychology. 
59(3-4), 239-253. 

Holland, P. W., & L^inhardt, S. (1981). An exponential family of probability distributions for 
directed graphs. Journal of the American Statistical Association, 7(5(373), 33-50. 

Hunter, D. R. (2007). Curved exponential family models for social networks. Social Networks. 
29(2), 216-230. 

Hunter. D. R., Goodreau. S. M„ & Handcock, M. S. (2008). Goodness of fit of social network 
models. Journal of the American Statistical Association. /0i(481K 248-258. 

Hunier. D. R., & Handcock, M. S. (2006). Inference in curved exponential family models for 
networks. Journal of Computational and Graphical Statistics. 15(3), 565-583. 

Hunter, D. R., Handcock, M. S„ Butts, C. T., Goodreau, S. M., & Morris, M. (2008). Ergm: 
A package to fit, simulate and diagnose exponential-family models for networks. Journal 
of Statistical Software, 24(}\ 1-29. 



赛考文献 


!63 


Karonski, M. (1982). A review of random graphs. Journal of Graph Theory, 6(4) ， 349-389. 

Kenny, D. A., & La Voic, L. (1984). The social relations model. In L. Berkowitz (Ed.), Advances 
in experimental social psychology (Vol. 18, pp. 141-182). New York: Academic Press. 

Krackhardl, D. (1987). QAP partial ling as a test of spuriousness. Social Networks. 9(2), 
171-186. 

Krebs, V. (2000). Working in the connected world: Book network. International Association 
for Human Resource Information Management, 4(1), 87-90. 

Krivitsky, P. N. (2012). Exponential-family random graph models for valued networks. Electronic 
Journal of Statistics, 6. 1100-1128. 

Krivitsky, P. N” & Handcock, M. S. (2008). Fitting latent cluster models for networks with 
latentnet. Journal of Statistical Software, 24(5), 1-23. 

Lcischow, S. J.. Best, A.. Trochim, W. M„ Clark, P. I., Gallagher, R. S.. Marcus, S. E., ct al. 
(2008). Systems thinking to improve the public’s health. American Journal of Preventive 
Medicine. i5(Suppl. 2), S196-S203. 

Luke. D. A. (2005). Getting the big picture in community science: Methods that capture con¬ 
text. American Journal of Community Psychology, i5(3-4), 185-200. 

Luke. D. A” & Harris, J. K. (2007). Network analysis in public health: History, methods, and 
applications. Annual Review of Public Health. 28, 69-93. 

Luke, D. A., Harris. J K., Shelton, S. ， Allen, P., Caroihcrs, B. J. f & Mueller, N. B. (2010). 
Systems analysis of collaboration in 5 national tobacco control networks. American Journal 
of Public Health, 100(1), 1290-1297. 

Luke, D. A.，& Stamatakis, K. A. (2012). Systems science methods in public health: Dynamics, 
networks, and agents. Annual Review of Public Health, 33 、 357-376. 

McPherson, M., Smilh-Lovin, L., & Cook. J. M. (2001). Birds of a feather: Homophily in 
social networks. Annual Re\'ie^' of Sociology, 27, 415 一 444. 

Mercken, L„ Snijders, T. A. B., Stegiich, C.. & de Vries. H. (2009). Dynamics of adolescent 
friendship networks and smoking behavior: Social network analyses in six European coun¬ 
tries. Social Science & Medicine, 69(10), 1506-1514. 

Moreno, J. (1953). Who shall surx'ive? Foundations of sociometry, group psychotherapy and 
sociodrama (2nd ed ). Beacon, NY: Beacon House. (Original work published 1934) 

Morris, M., Handcock, M. S., & Hunter. D. R. (2008). Specification of exponential-family 
random graph models: Terms and computational aspects. Journal of Statistical Software, 
24(A), 1-24, 

Myers, D. G., & Diener E. (1995). Who is happy? Psychological Science, 6(1), 10-19. 

Patlison, P., & Robins, G. (2002). Neighborhood-based models for social networks. Socio¬ 
logical Methodology, 32( 1), 301-337. 

Pearson, M., Stegiich, C., & Snijders, T. A. B. (2006). Homophily and assimilation among 
sport-active adolescent substance users. Connections. 27(1), 47-63. 

Plummer, M., Best, N., Cowles, K., & Vines. 1C (2006). CODA: Convergence diagnosis and 
output analysis for MCMC. R News. 6(1), 7-11. 

Rivera, M. T., Soderstrom, S. B., & Uzzi, B. (2010). Dynamics of dyads in social networks: 
Assortative, relational, and proximity mechanisms. Annual Review of Sociology. 36. 91-115. 

Robins, G. (2011). Exponential random graph models for social networks. In J. Scott & 
P. J. Carrington (Eds.), The SAGE handbook of social network analysis (pp. 484-500). 
London. UK: Sage. 

Robins, G. L. t Snijders, T. A. B., Wang, P., Handcock, M. S., & Pattison, P. E. (2007). 
Recent developments in exponential random graph (p*) models for social networks. 
Social Networks. 29, 192-215. 

Rothenberg, R. B., Sterk, C., Toomey, K. E., Potterat, J. J., Johnson, D., Schrader, M., et al. 
(1998). Using social network and ethnographic tools to evaluate syphilis transmission. 
Sexually Transmitted Diseases, 25(3), 154-160. 


指数随机图模型导论 


Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics. 6(2), 461 464. 
Scott. J.. & Carrington. P. J. (Eds.). (2011). 77»f* SAGE handbook o/ social network analysis. 
London, UK: Sage. 

Seeraan. T. E.. Kaplan, G. A., Knudscn. L.. Cohen. R.. & Guralnik, J. (1987). Social network 
lies and mortality among the elderly in the Alameda county study. American Journal of 
Epidemiology. 126{4), 714-723. 

Shumate, M., & Palazzolo, E. T. (2010). Exponential random graph (p*) models as a method 
for social network analysis in communication research. Communication Methods and 
Measures. 4(4), 341-371. 

Sni jdcrs, T. A. B. (2002). Markov chain Monte Carlo estimation of exponential random graph 
models. Journal o/ Social Structure. j(2). 

Snijders, T. A. B. (201 la). Statistical models for social networks. Annual Review qf Sociology. 
37. 131-153. 


Snijdcrs, T. A. B. (2011b). Network dynamics. In J. Scon & P. J. Carrington (Eds,), The SAGE 
handbook of social network analysis (pp. 501-513). London. UK: Sage. 

Snijders, T. A. B.. Pattison, P. E M Robins, G. L., & Handcock, M. S. (2006). New specifica¬ 
tions for exponential random graph models. Sociological Methodology, 36{\), 99-153. 

Snijders, T. A. B., van de Bunt, G. G.. & Steglich, C. E. G. (2010). Introduction to stochastic 
actor-based models for network dynamics. Social Networks, 32. 44-60. 

Ura, K., Alkire, S.. Zangmo, T., & Wangdi, K. (2012). A short guide to gross national happi¬ 
ness index. Thimphu: The Centre for Bhutan Studies. 

Valente, T. W (2010). Social networks and health: Models, methods, and applications. New 
York. NY: Oxford University Press. 

Valente. T. W., & Saba. W. P. (1998). Mass media and interpersonal influence in a reproductive 
health communication campaign in Bolivia. Communication Research, 25( 1), 96-124. 

Valente. T. W. & Vlahov, D. (2001). Selective risk taking among needle exchange partici¬ 
pants: Implications for supplemental interventions. American Journal of Public Health. 
9/(3), 40«h4!1. 


van Duijn. M. A. J.. & Huisman, M. (201!). Statistical models for ties and actors, in J. Scott 
& P. J. Carrington (Eds.), The SAGE handbook of social network analysis (pp. 459 483). 


London, UK: Sage. 

van Duijn, M. A. J., Snijdcrs. T. A. B„ & Zijlstra, B. J. H. (2004). p 2 : A random effects model 
with covanates for directed graphs. Stalislica Neerlandica. 58(2、, 234-254. 

Voorhces, C. C., Murray. D.. Welle, G., Bimbaum, A., Ribisl, K. M., Johnson, C. C.. et al. 
(2005). The role of peer social network factors and physical activity in adolescent girls. 
American Journal of Health Behavior, 29(2), 183-190. 

Wasserman. S., &. Faust, K (1994). Social network analysis: Methods and applications. 

Cambridge, UK: Cambridge University Press. 

Wasserman, S.. & Pattison, P. (1996). Logit models and logistic regressions for social networks: 

I. An introduction to Markov graphs and p*. Psychometrika. 67(3), 401-425. 

Wasserman, S., & Robins, G. (2005). An introduction to random graphs, dcpcmience graphs. 


and p* In P. J. Carrington, J. Scott, & S. Wasserman (Eds.), Models and methods in social 
network analysis (pp. 148 - 161). New York, NY: Cambridge University Press, 
idama, G., Schechtman, K. B., Biswas, P., Castro, M., & Chalisc, N. (2013). Indoor air pollution 
and respiratOTy health A cransdisciplinary vision. In D. Hairc-Joshiu & T. McBride (Eds.), 
Ttansdisciplinary public health: Research, methods, education and practice (pp. 319-340). 
San Francisco, CA: Jossey-Bass. 



译名对照表 


165 


译名对照表 


actor-focused liranch 

以行动者为中心的研究分支 

Aka ike information criterion( AH') 

赤池信息准则 

anti prefertTitin 1 fit- tachmeni 

异配倾向 

assumptions, general linear models and 

广义线性模型的假设 

atiractiveness 

吸引性 

Bayesian information criteriori(RK') 

贝叶斯信息准则 

behaviors, relationships and 

关系与行为 

binary networks 

二值网络 

('enter for Disease Control and Prevention 

美国疾病控制与预防中心 


change statistic 

变化统汁 

C'o)eman friendship networks 

科尔曼交友网络 

confidence inlervalsCCIs^ 

置信区间\ 

constraints* refining model using 

利用鉤束条件对模型进行 
精炼 

correlation coefficient 

相关系数 

curved exponential family( ( KF) 

曲线指数族 (CEF) 

data 

数据 

accessing in ER(jM software 

在 ERGM 软件包中获取 

数据 

egocentric network 

自我中心网数据 

epidemiologic 

exploring network(ERGM) 

流行病学数据 

利用 ERQM 対网络数据 

进行探索 

degeneracy, in network modt'ling 

网络逮揆中的近似退化 

degree distributions 

中心度分布 

deviance 

离差 

differential attractiveness 

差异化吸引性 

directed networks 

有向网络 

dislibulion, of triangles per network 

网络的三角形数墩分布 

dyadic dependence models 

二元依赖性模型 

dyadic independence models 

二元独立性模型 
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dyadic network covariates, as predictors 
dyads* in networks 
dyad types 


tlyadwise shared pa liners (DSP) 
edge attributes 
edges term 

edgewise shared pfirtners( ESP) 
egocentric network data 
epidemiologic data 
exponential decline 
exponential family model« curved, 
exponential random graph 
modeling (ERGM) 
exponential random graph 

modeling(ER( rM) development 
accessing data 
adding node attributs 
constraints, refining model 
curved exponential family model 
dependence model. 
interpreting results 
dependence terms 
interaciion terms 
MC'MC model diagnostics 
model fit 
model selection 
network data. exploring 
null model 

obtaining/preparing software 
probabilities, predicting 
frequency, network 
friendships ， liappine.ss and 


将二元网络协变 M 作为 Q 变 M 
网络中的二元组 
二元组类型 
二元组共享伙伴 
边属性 
边统计项 
边共享伙伴 
自我中心网络数据 
流行病学数据 
指数递减 
曲线指数族模型 
指数随机图模型 

指数随机图模型的构建 

获取数据 

增添芾点厲性 ’ 

模塑精炼的限定条件 
曲线指数族模型 
依赖关系模型的解释结果 

依赖关系统计项 
交互统计项 
马尔科夫链模型诊断 
模型拟合 
模型选择 

对网络数据进行探索性分析 
零模型 

获取/准备软件 
预测概率 
网络的频次 
幸福与友谊 
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geonietrically weighted tlistribution(( iWD) 

geonu j lrifally weighted dyaclwis»? shared 

partners(( ； WrxSF) 

j^eomcirirally weighted edgewise- shart*cl 
partners( GWESP) 

(;NH index, sec Gross National 
Happiness(GNM) index 
goodnessof- fit 
graphic diagnostics 


graphic examination of degree 
(»ross National Happiness^( jNH ) index 
happiness, social networks and 
high-degree nodes 
higher-order deiJendencc models 
homophily, in models 
individuals^ networks and 
interaction terms, adding 
Ituernational Network for Soci.-il Network 
Analy^is(lNSNA) 

Inti-r- univi-rsity ('onsori iuni for Political and 
Social Rcst'arclK K TSR) 
in-ties 

Journal of Statistical Software 
ket-p argument 
linear incline 
listserv. si；)lnet 


log-likclihoocl( LL) 

log odds 爭 

main effects model. predicting probabilities and 


il 何加权度分布 
几何加权二元组 
共享伙伴 
J:L 何加权边共享 

m 1 

国民幸福总值指数 

拟合优度 
(对拟合优度采 
取的）可视化 
诊断 

中心度的可视化验 E 
国民幸福总值指数 
社会网络与幸福 
卨中心度节点 
高序依赖性模型 
模型中的同质性 
网络与个体 
增加交互统汁项 
国际社会网络分 
析学会 

髙校校际政治与 
社会研究联盟 
链入关系 
《统计软件杂志》 
••keep” 参数 

线性倾斜 
stat net 的邮件 

列表服务 
对数似然比 
对数优势比 
预测概申•与主效 
应模型 
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Markov chain Monte CarloCMCMO 
Markov dependence assumption 
mat rice, mixed 


马尔科夫链蒙特卡洛方法 
马尔科夫依赖性假定 
混合矩阵 


min column 
mixed matrices 

model development, recommendations for 
model effects 


model fit. ER(.yM and 
model selection, ERGM and 
muliilevel modeling 
multilevel regression model 
multinet software multinct 
raulriple regression quadratic 
assignment procedure 
mutual term 

National Asocial ion of County and 
City Health ()fficials(NAC( HO) 
network covariates, as predictors 


network density 
network lexicon 
networks 
makeup of. 


observed，(iWD and 

online friends hi |xs and happiness 
organizations, connections and 
relationship patterns and 


network size 
network statistic 
network structures 
network tools. ERGM 



nodcov main effect 


最小值列 
混合矩阵 

模型构建建议步骤 
模型效应 

ERGM 和模型拟合 
ERGM 和模型选择 
多层次建模 
多层次回归模型 
multinet 软件 
多元回归二次指派程序 

交互统计项 

美国国家城镇卫生宫员 
协会 

网络协变 M •作为自变请 
网络密度 
网络术语 
网络 

网络的构成 

几何加权二元组和观测 
网络 

在线交友和幸福感网络 
组织、联系与网络 
关系类铟及网络 
网络规模 
网络统汁 
网络结构 
ERGM 网络工具 
nodcov 主效应 
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node attributes, adding 
nodefactor 
nodes, size/shapt 
nonuniform 

nonuniform degree distrihulion 

null hypothesis 

null model 

obs column 

odds ratios(ORs) 

online friendships, happiness and 

organizations, connections♦ networks and 

partial eonditional dependence 

()I model 

Pnet software 

predictors 

dyadic and network covarintes as 


values of 
probabilities 

predicting for CEF models 
predicting with ER( jM 
proportion, nodes 
PSPAR software 

quadratic assignment procedure( QAP) 
random network 
receiver terms 
reciprocity 

relationship patterns, sexual contact 
R Project for Statistical Compuring(website) 


增加节点厲性统计项 
节点因素 
节点规漠 ，形状 
非均匀 

非均匀的度分布 
零假设 
零模型 
观测值列 
优势比 

幸福感与在线交友 
网络 

网络、组织与联系 
部分条件依赖 
模型 

Pnet 软件 
自变量 

将二元组以及网络协 
变量作为自变 M 
自变 ft 值 
概率 

预测 CEF 模型的概率 
利用 ERGM 预测概率 
节点比例 
PSPAR 软件 
二次指派程序 
随机网络 

接收者效应统计项 
互惠性 

性接触关系模式 
面向统汁计算的 R 项 
目（网页） 

RSIena 软件 



RSIena software 
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H-siatnet. software 
SAGE Handbook of Social Network 
Analysis 
sender term 、、 

sexually tran^mittk-d disease ， 
relationship patterns and 
simple random graphs 
sinuilalcd networks 
social circuit dependence 
social network analysis(SNA) 

Sociai Networks (journal) 
social relations model (SRM) 
sociogram 

SCK'NET. 1NSNA listserv 

spatial switisrics 
statistical network models 
dyadic dependence models 
dyadic indcpt^dence models 
KR(iM. development of 
highor-order dependence：* models 
simple random graphs 
slat net( website) 
s toe hast ic l)lf>ck models 
subjective wcil-being( SWR) 
terms. f)\ model 
tie-focused branch 
transivitv . 

triad types 

triangles per network 
value column 
values nf predictors 


R-slatnet 软件包 
SAGE 社会网络分析手册 

发送者效应统 汁项 
关系模式和性传播疾病 

简单随机图 

仿真网络 * 

社交圈依赖关系 
社会网络分祈 (SNA) 

社会网络 ( 期刊〉 

社会关系模型 (SRM) 

社群图 

SOCNET, INSNA 的邮件列丧 
服务 

空间统计 
统汁网络模型 
二元依赖性模型 
二元独立性模型 
ERGM 的发展 
高序依赖性模型 
简中.随机图揆型 
slatnet 网站 

随机块模型 

主观幸摇感 

Pi 模型统计项 

以关系为中心的研究分支 

传递性 

H 元组类型 

网络的三角形数 

分值列 

自变量值 
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vertex attribute names 
vertex size shape 
Wald test 

weighting parameter 



顶点的厲性名称 
顶点的规模形状 
沃尔德检验 
加权参数 
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